教程 給大家演示如何采集 單網頁列表詳細信息 里的 數據, 目的是讓大家了解怎么創建循環 點擊到詳情頁 并能正常采集 詳情頁 的數據信息。

?

本文教程里講到的示例網站地址為:http://www.skieer.com/guide/demo/navmovies2.html

例如這個網址里面有很多電影,我們需要點擊每一部電影進去 詳情頁 采集電影的劇情、上映時間等字段。

?

步驟1 登陸八爪魚7.0 采集器→點擊新建任務→自定義采集,進入到任務配置頁面:


然后輸入網址→保存網址,系統會進入到流程設計頁面并自動打開前面輸入的網址。


Single Page 1

?

我們在八爪魚里需要循環點擊 到詳細頁, 再提取詳情頁面中的數據信息, 所以我們需要先做一個循環 點擊元素, 再做一個 提取數據

?

步驟2 鼠標點擊下圖中第一個電影標題“ 肖申克救贖”鏈接, 這時候和右邊的操作提示框中就會出現一些選項,我們選擇“選中全部”選項,然后再選擇“循環點擊每個鏈接”選項即可,這樣循環點擊電影標題到詳情頁面的步驟就做好了。

?

小貼士 在7.0以前的八爪魚版本中,會彈出一個選項框讓用戶選擇,7.0中為了讓用戶在操作的時候還能看到網頁,這個提示框就挪到了右邊,并且簡化了操作過程。而且在點擊 第一個電影標題“ 肖申克救贖”鏈接之后,瀏覽器中這個鏈接就被選中了 ,在網頁中用一個綠色框標注出來,同時八爪魚的智能算法也自動檢測到了還有其他幾個相似元素,也就是本例中另外兩個電影標題鏈接,我們選擇“選中全部”選項,就可以自動選中全部標題鏈接,這時候八爪魚提示我們已經選中了這一組元素,然后我們要逐個點擊鏈接進去詳情頁采集,所以接下來對選擇的“循環點擊每個鏈接”選項,這時候八爪魚就會自動模擬人的操作,執行剛才設定的“循環點擊每個鏈接”的動作,以剛選中的電影標題列表的第一個為樣本頁面,點擊詳情鏈接并跳轉到詳情頁面中去了,后續步驟中我們就可以提取數據了。


Single Page 2

?

接下來就是最終提取數據的步驟了,結合前面的步驟,最終完成對所有電影詳情數據的采集

?

步驟3 鼠標點擊頁面中要提取的電影 劇情 字段,這里標題字段就被選中了并通過紅色框表示,然后在彈出的提示框中選擇“采集該元素的文本”表明要采集的是頁面中的文本數據,然后同樣的方式選擇點擊瀏覽器中的其他字段,再選擇“采集該元素的文本”。


Single Page 3

?

步驟4 這樣提取完畢之后我們可以點一下流程按鈕,然后修改字段名稱。這里的字段名稱相當于表頭,便于采集時區分每個字段類別。


在下面界面中修改字段名稱,修改完成之后,點擊“確定”保存。


Single Page 4

?

步驟5 點擊“保存并啟動”,再在彈出的對話框中選擇“啟動本地采集”


系統會在本地電腦上開啟一個采集任務并采集數據, 任務采集完畢之后會彈出一個采集結束的提示, 接下來選擇導出數據,這里以選擇導出 excel2007 為例,然后點擊確定 . 之后選擇文件存放路徑,再點保存即可。這樣就獲取了我們最終需要的數據了。


Single Page 5

?

下面是數據示例


Single Page 6

?