麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 編程 > Python > 正文

Python 比較文本相似性的方法(difflib,Levenshtein)

2020-02-15 23:12:49
字體:
供稿:網(wǎng)友

最近工作需要用到序列匹配,檢測相似性,不過有點(diǎn)復(fù)雜的是輸入長度是不固定的,舉例為:

input_and_output = [1, 2, '你好', 世界', 12.34, 45.6, -21, '中國', '美麗']

其中,需要從input_and_output 中選取不固定長度的一段作為輸入,且順序不定,然后去與總體進(jìn)行比較,找出最符合的,開始是對漢字進(jìn)行數(shù)值化編碼,不過后來由于出現(xiàn)漢字越來越多,遂放棄該方法,轉(zhuǎn)向別的方式,查找資料發(fā)現(xiàn)了兩個(gè)python包廣被推薦,從下面來看各有優(yōu)缺點(diǎn),記錄之~

1、difflib

import difflib #python 自帶庫,不需額外安裝In [49]: test1Out[49]: ['你好', '我是誰']In [50]: test2Out[50]: ['你好啊', '我誰']In [51]: test3Out[51]: [12, 'nihao']In [52]: test4Out[52]: ['你好', 'woshi']In [53]: difflib.SequenceMatcher(a=test1, b=test2).quick_ratio()Out[53]: 0.0In [54]: difflib.SequenceMatcher(a=test1, b=test4).ratio()Out[54]: 0.5

2、Levenshtein

#pip install python-Levenshteinimport LevenshteinIn [56]: Levenshtein.distance(','.join(test1), ','.join(test2))Out[56]: 2In [57]: Levenshtein.distance(','.join(test1), ','.join(test4))Out[57]: 5

簡單來說,difflib使用時(shí)不一定為字符串,但匹配時(shí)只有單個(gè)元素完全匹配才計(jì)入,

而Levenshtein則需要輸入為字符串,匹配時(shí)是整體匹配(也可能跟把所有元素集中成一個(gè)字符串有關(guān),具體待繼續(xù)使用再摸索)

以上這篇Python 比較文本相似性的方法(difflib,Levenshtein)就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持武林站長站。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 亚洲成人精品久久 | 日韩黄在线 | 欧美a视频在线观看 | 欧美一级特黄aaaaaa在线看首页 | 欧美色大成网站www永久男同 | 日本欧美中文字幕 | 最新黄色电影网站 | 精品黑人一区二区三区国语馆 | 成人福利视频导航 | 91精品中文字幕 | 亚洲国产精品久久久久婷婷老年 | 91精品国产综合久久婷婷香蕉 | 香蕉视频18| 免费亚洲视频在线观看 | 国产亚洲精品久久久久婷婷瑜伽 | 在线观看免费污视频 | 色视频在线 | 一级电影免费 | 成人男女啪啪免费观看网站四虎 | 国产91九色 | 叉逼视频 | 日韩在线欧美在线 | 蜜桃精品视频在线观看 | 91九色视频观看 | 毛片在线免费 | 成人免费在线视频 | 欧美中文字幕一区二区三区亚洲 | 红桃一区| 国产一区二区三区四区在线 | 一区二区久久电影 | 国产精品jk白丝蜜臀av软件 | 成人一区二区三区四区 | 性少妇freeseⅹbbwhd | 一级免费在线 | 毛片视频网址 | 久久久成人免费视频 | 欧美一级黄色片在线观看 | 羞羞答答xxdd在线播放 | 国产成人精品区 | 国产成人综合在线观看 | 免费观看在线 |