麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 編程 > Python > 正文

python實現從pdf文件中提取文本,并自動翻譯的方法

2020-02-15 23:47:34
字體:
來源:轉載
供稿:網友

針對Python 3.5.2 測試

首先安裝兩個包:

$ pip install googletrans

$ pip install pdfminer3k

googletrans會提供一個命令translate,這個命令會調用google translate api執行自動翻譯:

python pdf文件中提取文本,并自動翻譯

python pdf文件中提取文本,并自動翻譯

python pdf文件中提取文本,并自動翻譯

pdfminer3k會提供一個工具腳本pdf2txt.py:

$ pdf2txt.py xxx.pdf

從stackoverflow搜索到可以去除頁眉和頁腳的命令(強烈推薦):

使用Ubuntu提供的pdftotext工具:

$ pdftotext -y 50 -H 650 -W 1000 -nopgbrk sva.pdf$ pdftotext -f 147 -l 166 -y 50 -H 650 -W 1000 -nopgbrk sva.pdf

谷歌翻譯并不能識別段落或者整句,如果一個整句中出現換行符,會發現翻譯就不完整了,以網頁版谷歌翻譯測試:

python pdf文件中提取文本,并自動翻譯

因此需要將pdf轉換好的文本文件進行拼接,借用linux args 命令,實現此功能,將整個文件的換行符全部去掉。

但是問題又出現了,整個文件變成一行,我們的段落結構都消失了,那么我們需要手動添加delimiter,設置為一個特殊字符@。

python pdf文件中提取文本,并自動翻譯

執行如下命令:

cat trans_src.txt |xargs |xargs -0 -d '@' -i{} translate -d zh-cn {} |tee trans_dst.txtcat sva_src_1to2.txt |xargs |xargs -0 -d '&' -i{} translate -d zh-cn {} |xargs -d'/n' -n4 | awk -F'zh-cn' '{print $2}' | awk -F'[][]' '{print $2}' | tee sva_dst_1to2.txt

將翻譯后的文本重定向到一個文件,然后對文件進行簡單的后處理,就可以了。

python pdf文件中提取文本,并自動翻譯

以上這篇python實現從pdf文件中提取文本,并自動翻譯的方法就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持武林站長站。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 精品国产一区二区三区四 | 夏目友人帐第七季第一集 | 日韩视频一区二区三区四区 | 97视频一二区 | 国产成人在线视频 | 一级大黄毛片 | 精品免费在线视频 | 国产亚洲精品久久久久5区 综合激情网 | 国产精品99久久99久久久二 | 夏目友人帐第七季第一集 | 久久生活片| 免费国产之a视频 | 久久精品日产高清版的功能介绍 | 日韩av片在线播放 | 国产亚洲精品综合一区91555 | av在线播放免费观看 | 欧美 日韩 国产 成人 | 久在线观看福利视频69 | 国产精品成人一区二区三区电影毛片 | 亚州精品国产 | 最新亚洲国产 | 成人毛片在线免费观看 | 成人午夜视频免费 | 黄 色 免费网 站 成 人 | 一区二区久久精品66国产精品 | 黄色免费小视频网站 | 亚洲一区二区中文 | 国产精品久久久麻豆 | 欧美黄一级 | 欧美精品免费一区二区三区 | 久久成人激情视频 | 黄色淫片 | 色网站综合 | 一边吃奶一边插下面 | 免费在线观看成年人视频 | 久久久久电影网站 | 黄色网址在线播放 | 亚洲国产精品一区二区精品 | 草草视频免费 | 欧美一级高潮 | 亚洲小视频在线 |