麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 編程 > Python > 正文

利用Python將文本中的中英文分離方法

2020-02-15 23:29:11
字體:
來源:轉載
供稿:網友

在進行文本分析、提取關鍵詞時,新聞評論等文本通常是中英文及其他語言的混雜,若不加處理直接分析,結果往往差強人意。

下面對中英文文本進行分離做一下總結:

1、超短文本,ASCII識別。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.該集團總裁朱利安周二表示,中國聯想控股將分拆其多個業務部門在股市上市。"result = "".join(i for i in s if ord(i) < 256)print(result)
out:China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode編碼識別

import res = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.該集團總裁朱利安周二表示,中國聯想控股將分拆其多個業務部門在股市上市。"uncn = re.compile(r'[/u0061-/u007a,/u0020]')en = "".join(uncn.findall(s.lower()))print(en)
out:chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的編碼范圍是:/u4e00-/u9fa5,相應的[^/u4e00-/u9fa5]可匹配非中文。

匹配英文時,需要將空格[/u0020]加入,不然單詞之間沒空格了。

以上這篇利用Python將文本中的中英文分離方法就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持武林站長站。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 国产精品99久久久久久久女警 | 97精品国产高清在线看入口 | 中国av免费在线观看 | 成年人高清视频在线观看 | 99sesese| 久久久久久久久久美女 | 国产免费激情视频 | 欧美 日韩 亚洲 中文 | 国产91亚洲精品久久久 | 日韩欧美中文字幕视频 | 日韩av片在线免费观看 | 3344永久免费 | 激情夜色| 成人毛片在线免费观看 | 国产九九 | 一本一道久久久a久久久精品91 | 九九热精品免费视频 | 一级电影免费在线观看 | 成人免费网视频 | 动漫孕妇被羞羞视频 | 毛片视频网站 | 日韩大片在线永久观看视频网站免费 | 欧美日韩亚洲一区二区三区 | 成人午夜在线免费观看 | 毛片视频播放 | 91伊人久久 | 欧洲黄视频 | 亚洲视频精品在线 | 中文字幕 在线观看 | 中文字幕在线观看www | 91av网址 | 国产一区二区国产 | 欧美一级黄色片免费观看 | 毛片小网站| 亚洲五码在线观看视频 | 日本中文一级片 | 99精品视频久久精品视频 | 欧美日韩在线播放一区 | 激情宗合网 | 萌白酱福利视频在线网站 | 久久久久久久不卡 |