自學Python3第5天,今天突發奇想,想用Python識別圖片里的文字。沒想到Python實現圖片文字識別這么簡單,只需要一行代碼就能搞定
from PIL import Imageimport pytesseract#上面都是導包,只需要下面這一行就能實現圖片文字識別text=pytesseract.image_to_string(Image.open('denggao.jpeg'),lang='chi_sim')print(text)
我們以識別詩詞為例
下面是我們要識別的圖片
先看下效果圖
我們運行代碼后識別的結果,有幾個字沒有正確識別,但是大多數字都能識別出來。
風急天高猿嘯哀 渚蕓胄芳少白鳥飛鳳無邊落木蕭蕭下, 不盡長量工盲袞宕袞來萬里悲秋常1乍窨, 百年多病獨登氤艱難苦恨擎霜量 漂倒新停澍酉帆
一行代碼就能識別圖片,我們背后要做些準備工作的
下面就來講講這幾個庫的安裝,因為只有這幾個庫安裝好以后Python才能實現一行代碼實現圖片文字識別
一,pytesseract和PIL的安裝
安裝這兩個包可以借助pip
- 1,命令行安裝
pip install PIL pip install pytesseract
- 2,如果你用的pycharm編輯器,就可以直接借助pycharm實現快速安裝。
在pycharm的Settings設置頁按照下面步驟操作
這樣就能成功安裝pytesseract,安裝PIL只需要在上面第三步里搜索PIL并點擊安裝即可
這時我們安轉好了庫,運行下面代碼
from PIL import Imageimport pytesseracttext=pytesseract.image_to_string(Image.open('denggao.jpeg'),lang='chi_sim')print(text)
會報下面錯誤,錯誤原因是:沒有安裝識別引擎tesseract-ocr
二,安裝識別引擎tesseract-ocr
1.下載下面的安裝包,然后直接點擊安裝即可
tesseract-ocr安裝包和中文語言包
解壓安裝tesseract-ocr后做如下操作,就可以支持中文識別了。因為tesseract-ocr默認不支持中文識別。
|
新聞熱點
疑難解答