麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 開發(fā) > Python > 正文

python常用數(shù)據(jù)重復(fù)項處理方法

2024-09-09 19:02:41
字體:
供稿:網(wǎng)友

在數(shù)據(jù)的處理過程中,一般都需要進行數(shù)據(jù)清洗工作,如數(shù)據(jù)集是否存在重復(fù),是否存在缺失,數(shù)據(jù)是否具有完整性和一致性,數(shù)據(jù)中是否存在異常值等.發(fā)現(xiàn)諸如此類的問題都需要針對性地處理,下面我們一起學(xué)習(xí)常用的數(shù)據(jù)清洗方法.

重復(fù)觀測處理

重復(fù)觀測:指觀測行存在重復(fù)的現(xiàn)象,重復(fù)觀測的存在會影響數(shù)據(jù)分析和挖掘結(jié)果的準(zhǔn)確性,所以在數(shù)據(jù)分析和建模之前需要進行觀測的重復(fù)性檢驗,如果存在重復(fù)觀測,

還需要進行重復(fù)項的刪除

在數(shù)據(jù)的收集過程中,可能會存在重復(fù)觀測的出現(xiàn),例如通過網(wǎng)絡(luò)爬蟲,就比較容易產(chǎn)生重復(fù)數(shù)據(jù).如下表,是通過爬蟲獲得某APP市場中電商類APP的下載量數(shù)據(jù)(部分)

通過觀測可以看出唯品會和當(dāng)當(dāng)出現(xiàn)了三次.如果收集上來的不是10行,而是10萬行,甚至更多是,就無法通過肉眼的方式檢測數(shù)據(jù)是否存在重復(fù)項了.

下面我們看用python怎么來處理重復(fù)項的檢查,以及如何刪除數(shù)據(jù)項中的重復(fù)項

代碼:

import pandas as pddf = pd.read_excel(r'D:/data_test04.xlsx')print('數(shù)據(jù)集是否存在重復(fù)觀測: /n',any(df.duplicated()))

out:

數(shù)據(jù)集是否存在重復(fù)觀測:

True

代碼就是簡單的兩行就處理好了

可以看出檢測數(shù)據(jù)集的記錄是否存在重復(fù),使用duplicated (英文單詞的意思就是重復(fù),復(fù)制的意思)方法,但是該方法返回的是數(shù)據(jù)集每一行的檢驗結(jié)果,為了能夠得到最直接的結(jié)果,可以使用any函數(shù),該函數(shù)表示的是在多個條件判斷中,只有一個條件為True,則any函數(shù)的結(jié)果就為True.正如結(jié)果所示,any函數(shù)的運用返回True值,說明

該數(shù)據(jù)集是存在重復(fù)觀測的.

刪除數(shù)據(jù)集中的重復(fù)觀測:

df.drop_duplicates(inplace = True)df

得出的結(jié)果如上圖所示,原先的10行在派出重復(fù)項后得到7行,被刪除的行號為:3,8和9.該方法中又有inplace參數(shù),設(shè)置為True就表示直接在原始數(shù)據(jù)集上做操作

以上就是本次介紹的全部知識點,感謝大家對武林網(wǎng)之家的支持。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 国内精品国产三级国产a久久 | 久久影院一区二区三区 | 亚洲精品欧美二区三区中文字幕 | 黄网站在线免费看 | 成人午夜网址 | 成人区一区二区三区 | 欧美精品电影一区二区 | 国产羞羞视频在线观看 | 综合精品一区 | 久久久精品视频在线观看 | 草b视频在线观看 | 伦理三区| 成人精品久久 | 国产在线精品一区二区三区 | 精品一区二区三区在线观看视频 | 国产91丝袜在线播放 | www.91sese| 色99久久 | 国产一区视频免费观看 | 中文字幕视频在线播放 | www.精品一区| 老a影视网站在线观看免费 国产精品久久久久久久久久尿 | 91精品国产91久久久久久丝袜 | 午夜爽爽爽男女免费观看hd | 综合网天天射 | 国产精品自拍av | 摸逼逼视频| 色婷婷久久一区二区 | 欧美性色生活片免费播放 | 中文字幕精品在线视频 | 欧美一级毛片一级毛片 | 深夜视频福利 | 免费a观看 | 久久久婷婷一区二区三区不卡 | 国产91九色 | 羞羞答答www网站进入 | 国产乱色精品成人免费视频 | av懂色| 看免费5xxaaa毛片 | 国产伦久视频免费观看视频 | 黄色网址在线免费 |