用Perl抓取網(wǎng)頁和提交表格
這里簡單介紹一下用Perl來實現(xiàn)抓好取網(wǎng)頁的源代碼,以及用POST的方法來提交表格,并返回結(jié)果。難的講不來,講講簡單的。
這里講到的Perl模塊有:
useLWP::Simple;useLWP::UserAgent;用Perldoc查看詳細的用法。
1,用Perl抓取網(wǎng)頁
如果只是要拿到某個網(wǎng)頁,那使用LWP::Simple里的函數(shù)是最簡單的。通過調(diào)用get($url)函數(shù),就可以得到相關(guān)網(wǎng)址的內(nèi)容。
my$url='http://freshair.nuseLWP::Simple; my$content=get$url; die"Couldn'tget$url"unlessdefined$content; #$content里是網(wǎng)頁內(nèi)容,下面是對此內(nèi)容作些分析:
if($content=~m/jazz/i){print"They'retalkingaboutjazztodayo nFreshAir!/n"; }else{ print"FreshAirisapparentlyjazz lesstoday./n"; } 非常簡單易懂。拿網(wǎng)頁內(nèi)容是容易的,難的是用正則過濾需要的內(nèi)容。
2,通過POST提交表格
部分HTML表格使用HTMLPOST向服務器提交數(shù)據(jù),在這里你可以這樣:
$response=$browser->post($url,[ formkey1=>value1, formkey2=>value2, ... ], ); 實例分析:例如在http://www.enzim.hu/hmmtop/html/submit.html)提交一段序列并返回結(jié)果,用Perl來實現(xiàn)。代碼如下:
#!/usr/bin/PerluseLWP::UserAgent; my$browser=LWP::UserAgent->new; $protein="MSSSTPFDPYALSEHDEERPQNVQ SKSRTAELQAEIDDTVGIMRDNIN KVAERGERLTSI"; my$SUSUI_URL="http://www.enzim.hu/hmmtop/server/hmmtop.cgi"; my$response=$browser->post($SUSUI_URL,['if'=>$protein,]); if($response->is_success){ print$response->content; }else{ print"Badluckthistime/n"; } 通過分析http://www.enzim.hu/hmmtop/html/submit.html的頁面可知,這個要提交的input只有一個,就是name="if"。$protein就是要提交的序列。$response->content就是返回結(jié)果。
新聞熱點
疑難解答
圖片精選