從網路上抓文章需要告訴軟體
三個參數,下面舉例說明需哪三個(請按照例子學習)。
1.第一個參數是告訴軟體,你要從哪個網址抓文章。注:指定的這個網址必須是一個文章目錄,而不是某篇具體的文章。
如:
http://news.sina.com.tw/ents/
是一個正確的網址,因裏面含有大量文章的連接。
2.現在從這個網址中隨便點擊一篇文章,打開該文章的網址。如:
http://news.sina.com.tw/article/20140112/11563483.html3.打開文章網址後,您會發現該網址除了文章外,還有很多廣告等雜七雜八的訊息,肯定是您不想發表出來的。
所以此時您要告訴軟體,您需要抓的內容,是該文章中的哪一部分,即要抓的內容是
從哪裏開始,
到哪裏結束。
在這裏,從哪裏開始是
第2個參數,到哪裏結束是
第3個參數。
4.第2個和第3個參數,必須通過檢視文章網頁的原始檔來獲得。(下面有圖示說明)通過以下步驟可精准獲得這2個參數(下面有圖示說明)
第一步:在網頁上點右鍵,點“檢視原始檔”。
第二步:從源始碼中,先找到您需要抓的內容塊。再往前一點,找一組字符,作為參數2,表示要從該處開始抓內容。
在本例中,我們找到的
參數2是->
name="iclickAdBody_Start"第三步:往後拉,找到您要抓的內容的結束部分,也找一組字符,作為參數3,表示只抓到該處。
在本例中,我們找到的
參數3是->
iclickAdBody_End5.原始碼中這麼多字串,為什麼要用name="iclickAdBody_Start"
作為參數2呢?原因1:name="iclickAdBody_Start" 在整個源始碼中只有一處地方有。如果您用
<p>這樣的字串,因為原始碼中太多<p>,很可能會抓到其它內容去了。
原因2:name="iclickAdBody_Start"
在目錄網址
http://news.sina.com.tw/ents/
中的所有文章的原始碼中都是有的,您可隨便另點一篇其它文章進入,檢視原始檔,應該也會看到有
name="iclickAdBody_Start"。
6.為什麼要用iclickAdBody_End作為參數3呢?原因1:因為iclickAdBody_End在要抓的內容的結尾處。
原因2:在網址
http://news.sina.com.tw/ents/
這個目錄下的所有文章的原始碼中,iclickAdBody_End都恰好在要抓的內容的結尾處。
參數2,3的設置說明圖
所以,現在軟體需要的三個參數都知道了
參數1:要從哪個網址抓?
參數2:要從文章原始碼中的哪里開始抓?
參數3:要抓到哪里結束?
把這3個參數用|(豎線)隔開,填入修改帳號的文章來源中即可。
最後文章來源中填入:
http://news.sina.com.tw/ents/|name="iclickAdBody_Start"|iclickAdBody_End
我們看下本例的最終填入的圖:
至此,已經可以抓到文章了,但為了提高抓文章的速度,還可以再告訴軟體一些資訊,會抓得更快。
當然,以下資訊並不是必須要填,如果您覺得有困難,可以先不要看。
現在再回到
文章目錄網址:
http://news.sina.com.tw/ents/我們看到該網址中,除了文章有連接外,還有其它一些廣告等也有連接。
為了讓軟體抓文章連接時,不要去抓那些廣告的連接,可以找出文章連接的共同點,告訴軟體。
在本例中,我們很容易可以發現,文章中的連接都會含有
article這個字串(如:http://news.sina.com.tw/
article/20140112/11563483.html)
這樣,我們只需要在修改帳號畫面中的
標題和鏈接必須有中填上
article即可。
如果有必要還可以在
標題和鏈接不能有中填入合適的字串,當然一般情況該項目可以不填。