新手入門5——分頁列表信息采集(7.0版本)

?

本文給大家演示如何采集分頁列表頁面里的信息。目的是讓大家了解怎么創建循環翻頁并能正常采集網頁列表的數據信息。

?

本文教程里講到的示例網站地址為:http://www.skieer.com/guide/demo/genremoviespage1.html ?例如這個網址里面有很多電影,我們需要提取每一部電影的標題,分類,評分等字段

?

步驟1? 登陸八爪魚7.0采集器→點擊新建任務→自定義采集,進入到任務配置頁面: 然后輸入網址→保存網址,系統會進入到流程設計頁面并自動打開前面輸入的網址。

?

?1

?

步驟2?我們在八爪魚里需要循環提取每一頁列出來的電影名稱 ,所以我們需要先做一個翻頁循環再做一個循環提取電影名稱的列表。


我們先做一個循環翻頁流程,這個步驟就會在采集的時候模擬人工點擊翻頁,鼠標點擊在下圖瀏覽器頁面中的“下一頁”按鈕,在彈出的對話框中選擇“循環點擊下一頁”;


這樣翻頁循環就做好了。如果不需要翻頁只要采集一頁的內容,那么這一步可以跳過。


?2

?

步驟3


我們要將列表展示的信息采集成二維表的形式,首先要選中第一個區塊,包含所有要采集內容的區塊,有些網頁可能會選不中,那么可以先選中區塊內的某個數據再點擊更多下面的圖標,看到綠色范圍覆蓋了需要采集的第一塊區域,八爪魚內置算法會找到這一塊區域的子元素,點擊“選中子元素”,根據選中的第一個區塊的子元素,八爪魚會在當前頁面中找相似的內容,現在八爪魚就找到了三組內容,都是我們需要的,點擊“選中全部”,就可以看到八爪魚已經將當前頁的內容轉化成了二維表的形式,這就是采集到的效果,然后我看到有一些不需要的字段,可以將鼠標移動到需要刪除的表頭,點擊垃圾桶的圖標,就可以刪除不需要的字段。


現在規則就已經設置完成了,可以保持并開始采集了


?3

?

步驟4? 如果需要修改表名,可以點擊右上角的流程 ,在配置抓取模板里設置需要的字段名稱。

??4


步驟5 點擊“保存并啟動”,再在彈出的對話框中選擇“啟動本地采集”

系統會在本地電腦上開啟一個采集任務并采集數據,任務采集完畢之后會彈出一個采集結束的提示, 接下來選擇導出數據,這里以選擇導出excel2007為例,然后點擊確定. 之后選擇文件存放路徑,再點保存即可。這樣就獲取了我們最終需要的數據了。


?5

?

下面是數據示例

?6

?