Tesseract介紹
tesseract是一個(gè)挺不錯(cuò)的OCR引擎,目前的問(wèn)題是最新的中文資料相對(duì)較少,過(guò)時(shí)、不準(zhǔn)確的信息偏多。
tesseract是一個(gè)google支持的開(kāi)源ocr項(xiàng)目,其項(xiàng)目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源碼可以在這里下載。
實(shí)際使用tesseract ocr也有兩種方式:1. 動(dòng)態(tài)庫(kù)方式 libtesseract 2. 執(zhí)行程序方式 tesseract.exe
環(huán)境
Python 3.6.3 pip 9.0.1 tesseract-ocr-setup-3.05.00dev.exe Windows10安裝
1.tesseract-orc
Tesseract:開(kāi)源的OCR識(shí)別引擎,初期Tesseract引擎由HP實(shí)驗(yàn)室研發(fā),后來(lái)貢獻(xiàn)給了開(kāi)源軟件業(yè),后經(jīng)由Google進(jìn)行改進(jìn),消除bug,優(yōu)化,重新發(fā)布。安裝的時(shí)候需要自行選擇安裝的語(yǔ)言,一些其他國(guó)家的語(yǔ)言可以不選擇安裝,我之按安裝了中文,英文和日語(yǔ)。安裝過(guò)程和其他軟件一樣。
2.pytesseract
pip install pytesseract
配置環(huán)境
1.設(shè)置 tesseract-orc路徑
默認(rèn)情況下tesseract-orc是不被添加到系統(tǒng)的path路徑的,這樣在使用的時(shí)候發(fā)生FileNotFoundError: [WinError 2]
系統(tǒng)找不到指定的文件錯(cuò)誤。
解決方法:
方法1:將 C:/Program Files (x86)/Tesseract-OCR添加到系統(tǒng)路徑(路徑因安裝過(guò)程而異) 方法2:修改pytesseract.py文件設(shè)置訓(xùn)練集的位置
下載的默認(rèn)訓(xùn)練集也沒(méi)有添加到系統(tǒng)路徑,會(huì)報(bào)錯(cuò)
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file //Program Files (x86)//Tesseract-OCR//tessdata/chi_sim.traineddata')
解決方法:
設(shè)置環(huán)境變量 TESSDATA_PREFIX
C:/Program Files (x86)/Tesseract-OCR/tessdata
實(shí)例程序
import pytesseractfrom PIL import Imageimage = Image.open('test.png')code = pytesseract.image_to_string(image)print(code)
更多參考:https://pypi.python.org/pypi/pytesseract
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,謝謝大家對(duì)武林站長(zhǎng)站的支持。如果你想了解更多相關(guān)內(nèi)容請(qǐng)查看下面相關(guān)鏈接
新聞熱點(diǎn)
疑難解答
圖片精選