新手入門-自定義模式


???自定義模式是八爪魚進階用戶使用最多的一種模式,需要自行配置規則,可以實現全網98%以上網頁數據的采集。

???定位:通過配置規則模擬人瀏覽網頁的操作對網頁數據進行抓取。

???使用前提:通過向導模式具備了一定采集規則熟悉與八爪魚采集邏輯理解能力,可以自行配置規則,通過自定義模式還能簡單的在實踐中學會網頁結構、Xpath等能力,堪稱學習工作兩不誤。

???推薦使用情況:其他模式不能滿足需求的時候,可以使用自定義模式采集全網數據。


文章內示例網址為:

http://www.skieer.com/guide/demo/genremoviespage1.html

?

自定義模式采集步驟:


步驟1:首先打開八爪魚采集器→找到自定義采集→點擊立即使用


自定義模式 開始?

?

步驟2:輸入網址→設置翻頁循環→設置字段提取→修改字段名→對規則進行手動檢查→選擇采集類型啟動采集

?自定義模式 規則配置

?

注意點


  1. 設置翻頁循環:觀察網頁底部有沒有翻頁圖標,如果有并且需要翻頁則點擊翻頁圖標,操作提示中循環點擊下一頁表示循環翻頁,可以在循環中設置翻頁次數,設置幾次則采集網頁最新內容幾頁。采集該鏈接的文本選項則會出現提取數據步驟,提取下一頁對應的文本;點擊采集該鏈接地址步驟選項會出現提取數據步驟,提取當前字段對應的鏈接地址。點擊該鏈接則會出現點擊元素步驟,點擊該元素一次。
  2. 設置字段提取:先對網頁內容進行分區塊,思路為循環各區塊,再從循環到的區塊中提取每個字段內容,所以設置時先點擊2-3個區塊,八爪魚會自動選中剩余所有區塊,點擊采集以下元素文本會出現循環提取數據步驟,實現對區塊的循環采集,但是此時每個區塊循環時只會將區塊內文字合并為一條提取,此時我們刪除該字段并手動添加需要提取的所有字段;點擊循環點擊每個元素則會出現循環點擊元素步驟,對每個區塊進行一次點擊,該示例中區塊點擊沒有效果,所以該示例中循環點擊不存在效果。如果選擇錯誤,或者出現的內容列表不是你需要的,可以在操作提示中點擊區塊后的垃圾桶圖標進行刪除操作,或者點擊取消選擇,重新設置。循環之下的第一個元素要勾選采集當前循環中設置的元素,相關操作才會根據循環設定循環。
  3. 修改字段名:修改字段名可以點擊選擇系統內置的字段名,或者手動輸入字段名,按回車鍵可以切換到下一個。
  4. 選擇采集類型啟動采集:本地采集占用當前電腦資源進行采集,如果存在采集時間要求或當前電腦無法長時間進行采集可以使用云采集功能,云采集在網絡中進行采集,無需當前電腦支持,電腦可以關機,可以設置多個云節點分攤任務,10個節點相當于10臺電腦分配任務幫你采集,速度降低為原來的十分之一;采集到的數據可以在云上保存三個月,可以隨時進行導出操作。

步驟3:確認數據無誤→點擊導出數據→免費版用戶支付積分→選擇導出方式→查看數據

自定義模式 導出

?

說明:積分是用來支付八爪魚增值服務的一種方式,主要的用途包括:通過八爪魚采集器采集并導出數據,不同的賬號類型在使用上述增值服務時會有不同的收費策略,具體的收費策略和區別在版本說明里面有詳細的解釋。積分可以通過八爪魚官方購買專業版或者旗艦版每月贈送,也可以單獨購買積分,還可以通過關注,簽到,分享規則,關注微信,綁定社交賬號等多種方式獲得。

?

?