本文介紹使用八爪魚采集百度搜索結果的方法

采集網站:https://www.baidu.com/?

使用功能點:

分頁列表信息采集

AJAX點擊和翻頁

Xpath


百度:百度作為全球最大的中文搜索引擎公司,百度一直致力于讓網民更平等的獲取信息,找到所求。百度是用戶獲取信息的最主要入口,隨著移動互聯網的發展,百度網頁搜索完成了由PC向移動的轉型,由連接人與信息擴展到連接人與服務,用戶可以在PC、Pad、手機上訪問百度主頁,通過文字、語音、圖像多種交互方式瞬間找到所需要的信息和服務。

?

百度搜索結果采集數據說明:本文進行了百度搜索結果頁信息的采集。本文僅以“百度搜索結果頁信息采集”為例,大家在實操過程中,可根據自身需求,更換百度的其他內容進行數據采集。

?

百度搜索結果采集詳細說明:網頁標題,網頁鏈接,網頁描述信息。

?

?

步驟1:創建采集任務

1)進入主界面,選擇“自定義模式”

1

?

2)要采集的網址制粘貼到網站輸入框中,點擊“保存網址

2

?

步驟2:輸入文本

1)在頁面右上角,打開“流程”,以展現出“流程設計器”“定制當前操作”兩個板塊。點擊搜索框,在操作提示框中,選擇“輸入文字”

3

?

2)輸入要采集的文本,這里以輸入“八爪魚采集器”為例。完成后,點擊“確定”

4

?

3)輸入的文本自動填充到搜索框后,點擊“百度一下”按鈕。在操作提示框中,選擇“點擊該按鈕”

5

?

此步驟涉及Ajax技術。打開“高級選項”,勾選“Ajax加載數據”,設置時間為“2秒”。完成后,點擊“確定”

6

?

步驟3:創建翻頁循環

1)將頁面下拉到底部,點擊“下一頁”按鈕,在右側操作提示框中,選擇“循環點擊下一頁”,以建立一個翻頁循環

7

?

此步驟涉及Ajax技術。打開“高級選項”,勾選“Ajax加載數據”,設置時間為“2秒”。完成后,點擊“確定”

8

?

2)選中“循環翻頁”步驟,打開“高級選項”,將單個元素中的這條Xpath://A[@class='n',復制粘貼到火狐瀏覽器中的相應位置

9

?

3)可以看到,當在第1頁的時候,使用此條Xpath,可以定位到“下一頁”,可正常翻頁

10

?

4)當翻到第2頁的時候,使用此條Xpath,既可定位到“上一頁”又可定位到“下一頁”。那么,八爪魚采集器在執行的時候,無法正常點擊到“下一頁”

11

?

5)返回八爪魚采集器,點擊“自定義”

12

?

6)勾選“元素文本=下一頁>”,對應生成的Xpath為://A[@text()='下一頁>']。完成后,點擊“確定”

13

?

7)將修改后的Xpath://A[@text()='下一頁>'],再次復制粘貼到火狐瀏覽器中。可以看到,當翻到第2頁的時候,可正常定位到“下一頁”第3、4、5、6等也可正常定位到“下一頁”,翻頁循環可正常運行

14

?

步驟4:創列表循環并提取數據

1)移動鼠標選中頁面里第一條搜索結果的區塊,再選中頁面內另一條搜索結果的區塊。系統會自動識別并選中,頁面里其他搜索結果的區塊,以建立一個列表循環。在操作提示框中,選擇“采集以下元素文本”。整個區塊里的信息,作為一個字段,被采集下來

15

?

2)選中“循環”步驟,打開“高級選項”,將不固定元素列表中的這條Xpath://DIV[@id='content_left']/DIV復制粘貼到火狐瀏覽器中的相應位置

16

?

3)將八爪魚中的Xpath,復制到火狐瀏覽器中的相應位置。觀察頁面,我們不需要采集的“相關搜索”和“廣告”內容也被定位了

17

?

4)觀察網頁源碼,我們要采集的區塊,具有相同的tpl屬性,tpl="se_com_default"(如圖紅框中所示),通過tpl屬性,可將要采集的區塊與不需要采集的廣告、推薦內容區分開來。

將Xpath修改為://DIV[@id='content_left']/DIV[@tpl="se_com_default"]。再觀察頁面,要采集的內容都被定位了,不需要采集的廣告、推薦內容未被定位

18

?

5)將修改后的Xpath://DIV[@id='content_left']/DIV[@tpl="se_com_default"],復制粘貼到八爪魚采集器的相應位置。完成后,點擊“確定”

19

?

6)在這里,我們還想采集每條搜索結果的鏈接URL。選中頁面內一條搜索結果的鏈接,在操作提示框中,選擇“采集該鏈接地址”

20

?

7)字段選擇完成后,選中相應的字段,可以進行字段的自定義命名。完成后,點擊左上角的“保存并啟動”,選擇“啟動本地采集”

21

?

步驟5:數據采集及導出

1)采集完成后,會跳出提示,選擇導出數據”。選擇合適的導出方式,將采集好的數據導出

22

?

2)這里我們選擇excel作為導出為格式,數據導出后如下圖

23