Linux環(huán)境:CentOs6.4
Hadoop版本:hadoop-0.20.2
內(nèi)容:統(tǒng)計(jì)hadoop/bin下的所有文件中單詞出現(xiàn)的個(gè)數(shù)。
所用到的命令有:
復(fù)制代碼代碼如下:
//創(chuàng)建input文件夾
./hadoop fs -mkdir input
//將所有的需要統(tǒng)計(jì)單詞個(gè)數(shù)的文件放在input文件夾下
./hadoop fs -put *.sh /input/
//運(yùn)行wordcount將結(jié)果輸出到output文件夾下
./hadoop jar hadoop-examples-0.20.2.jar wordcount /input /output
//驗(yàn)證某個(gè)單詞的個(gè)數(shù)
grep xxx *.sh
grep xxx *.sh|wc
第一步:確定HDFS、MapReduce、jobTracker等是否正常啟動(dòng)。查看http://www.companysz.com/softjc/137245.html
第二步:在Hadoop文件系統(tǒng)根目錄中創(chuàng)建input文件夾。
執(zhí)行命令:
打開(kāi)網(wǎng)頁(yè)查看input文件夾是否創(chuàng)建成功:
上圖表明已經(jīng)成功。
第三步:將bin目錄下的所有文件放到hadoop文件系統(tǒng)的input目錄下。
執(zhí)行命令:
通過(guò)瀏覽器查看input文件夾下是否已經(jīng)存在所存放的文件。
第四步:執(zhí)行wordcount命令統(tǒng)計(jì)單詞個(gè)數(shù)。
回到Hadoop文件夾下,找到統(tǒng)計(jì)個(gè)數(shù)的jar包。如圖,在hadoop-0.20.2目錄下有一個(gè)hadoop-0.20.2-examples.jar。
運(yùn)行命令執(zhí)行此jar,統(tǒng)計(jì)個(gè)數(shù)。并將輸出結(jié)果放在output目錄下。命令如下:
運(yùn)行成功。
第五步:驗(yàn)證結(jié)果是否正確。通過(guò)命令統(tǒng)計(jì)某一單詞的個(gè)數(shù),與MapReduce統(tǒng)計(jì)的個(gè)數(shù)進(jìn)行對(duì)比。
通過(guò)命令查看文件中l(wèi)anguage單詞的個(gè)數(shù)為12個(gè),如圖。
查看MapReduce運(yùn)行結(jié)果,如圖:
運(yùn)行結(jié)果相同。
附:從過(guò)頁(yè)面查看運(yùn)行狀態(tài)
新聞熱點(diǎn)
疑難解答
圖片精選