header("content-type:text/html;charset=utf-8");
采集
$url="http://gongyi.QQ.com/?ptlang=2052&ADUIN=421644867&ADsession=1481333812&ADTAG=CLIENT.QQ.5503_.0&ADPUBNO=26642";$atr=file_get_contents($url);
數據信息轉碼
$atr = mb_convert_encoding($atr, 'utf-8', 'GBK');// var_dump($atr);die;
頁面的一個div匹配
$ // var_dump($data);die;div里面的標題數據信息匹配
// $res1 = '#<em class=".*"><a target=".*" href="(.*)">(.*)</a></em>#isU'; $res1='#<em class="title"><a target="_blank" href=".*">(.*)</a></em>#isU'; preg_match_all($res1,$data[0],$ree);// var_dump($ree);
div里的第二個數據信息圖片的表題
$res2 = '#<a class="pic" target=".*" href=".*"><img width="200" height="130" src="(.*)"></a>#isU'; preg_match_all($res2,$data[0],$ree2); // var_dump($ree2); div里第三個標題是的匹配數據信息的處理 $res3='#<div class="newsContent" style="display:none">(.*)</div>#isU'; preg_match_all($res3,$data[0],$ree3); // var_dump($ree3); // $str =''; 數組的處理[1]帶標簽[2]內容 $arr=array(); for ($i=0; $i<count($ree2[1]); $i++) { $arr[]=['title'=>$ree[1][$i], 'img'=>$ree2[1][$i], 'content'=>$ree3[1][$i] ]; }// var_dump($arr);
這里是采用yii框架入庫
$connection = /Yii::$app->db; foreach ($arr as $key => $val) { $connection->createCommand()->insert('cai', [ 'title' => $val['title'], 'content' =>$val['content'], 'img' => $val['img'] ])->execute(); } }新聞熱點
疑難解答