一、Tesseract-OCR 是什么
An OCR Engine that was developed at HP Labs between 1985 and 1995… and now at Google
基于Leptonica(http://leptonica.com/)圖形處理庫開的開源圖形識別引擎。
支持Linux、Windows、Mac平臺,
支持.NET、C++、Python、Java等開發語言:https://code.google.com/p/tesseract-ocr/wiki/AddOns
項目地址:https://code.google.com/p/tesseract-ocr/
二、使用方法
下載安裝:https://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.02.02.exe
注意安裝時的Path目錄、數學符號、語言選項,按需選擇。
執行:”tesseract yourpic.png res”
圖片 yourpic.png 里面的內容會被識別后保存在 res.txt
為了更精確的識別可以去到項目地址上下載相應的各種語言的 language tessdata
例如:
簡體中文 https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.chi_sim.tar.gz
繁體中文
下載解壓后 chi_sim.traineddata 復制到 Tesseract-OCR/tessdata 即可
執行:
“tesseract yourpic.png eng” 使用 默認eng語言包
“tesseract yourpic.png sim -l chi_sim” 使用 chi_sim語言包
“tesseract yourpic.png tra -l chi_tra” 使用 chi_sim語言包
選擇最接近真實數據的,方便以后修正
三、進階使用 Training
為數不多的training tesseract-ocr中文文檔
http://yy-programer.blogspot.tw/2012/08/training-tesseract-ocr-301.html
對于高精度需求的需要研究一下了,日常民用級別,默認識別加后期修正即可。
四、應用實例之吸附代理
針對 http://www.proxyfire.net/ 幾個代理列表頁的代理吸附
話不多說直接上代碼,
pf.bat