實例解釋比較詳細的杰奇小說采集規則編寫教程

2019-11-02 17:01:00

字體：大中小

來源：轉載

供稿：網友

添加采集規則

規則說明

系統默認變量：<{articleid}> - 文章序號，<{chapterid}> －章節序號， <{subarticleid}> －文章子序號， <{subchapterid}> －章節子序號。

系統標簽 * 可以替代任意字符串。

系統標簽 ! 可以替代除了<和>以外的任意字符串。

系統標簽 ~ 可以替代除了<>'"以外的任意字符串。

系統標簽 ^ 可以替代除了數字和<>之外字符串。

系統標簽 $ 可以替代數字字符串。

采集規則中，需要獲取的內容部分用四個以上系統標簽代替，如 !!!!

基本設置

網站標識configs/article/collectsite.php中所添寫的標識，可隨便填寫，一般為所采集站點的域名簡寫，以和其他規則區分。例：feiku

網站名稱所采集站的名稱。例：飛庫

網站地址所采集站的地址。例：http://www.feiku.com

文章子序號運算方式不是必須添寫的，我這里就留空了。

支持使用<{articleid}>標記的四則運算（+加，-減，*乘，/除，%取余）

章節子序號運算方式不是必須添寫的，我這里就留空了。(誰知道他一個文件夾放多少書啊，他不按規則放，我不是采集不到 )

支持使用<{articleid}>標記的四則運算（+加，-減，*乘，/除，%取余）

代理服務器地址不使用代理服務器請留空

代理服務器端口

現有章節無法對應時候是否全部清空重新采集是否根據自己需要選擇

是否默認把采集到的文章設置為全本是否根據自己需要選擇，如果選擇"是"無論文章是連載還是完結，你站上都顯示全本，建議選“否”

發送HTTP_REFERER標志，用于突破防采集設置是否默認選“是”,不知道什么用，我選“是”先突破下再說

對方網頁編碼（自動檢測 GB2312 UTF8 BIG5）默認“自動檢測” 編碼與本站不同將自動嘗試轉換

文章信息頁面采集規則

文章信息頁面地址書籍信息頁網址，書籍ID用<{articleid}>代替。例：

http://feiku.com/Book/<{articleid}>/Index.html

文章標題采集規則要求會查看網頁的源文件啊 ,不會的可以停止了 .查看下信息頁面的源文件，然后找到文章標題在源文件的什么位置(我們是以飛庫為例的,就是章節信息頁面那個《文章標題》在源文件的位置).這里以《我的美女大小姐》這個為例,找到標題附近的代碼是<div id="CrBookTitle"><span class="booktitle">《我的美女大小姐》</span></div>把上面代碼復制到文章標題采集規則的那個框里,然后把我的美女大小姐這個真實的標題替換為!!!!當然也可以替換成其他的替換符號比如****不過講究的是在能表達意思的情況下范圍越小越好(習慣問題，這里當然只能采集到文章標題了，但是其他的一些采集的時候就有你不想要的東西).

作者采集規則<li class="l6"><a href="/Author/WB/144238.html">李興禹</a></li>這里的李興禹是要采集的內容,用!!!!代替不過144238只對這個文章有用,其他文章有其他的數字,所以用任意數字串$代替.所以作者采集規則就是

文章類型采集規則 <li class="l2"><a href="/Book/LN/133.html">都市</a></li>由上面兩個采集規則的寫法不難看出這里的規則是 <li class="l2"><a href="/Book/LN/$.html">!!!!</a></li>

上一篇：網站增加外部鏈接的方法和幾點注意事項

下一篇：Google Adsense優化心得