本教程給大家演示如何采集單個網頁上的數據,適用于搜集某一頁的數據。僅有“打開網頁”和“提取數據”兩步,是最為簡單的流程配置,但在所有流程均不可缺少。目的是讓大家了解如何創建自定義采集任務,掌握最基礎的自定義任務配置方法。


本文教程里講到的示例網站地址為:http://www.skieer.com/guide/demo/simplemovies2.html

?

例如示例網站是一則新聞信息,我們需要提取這則新聞。


步驟1??打開網頁


登陸八爪魚7.0采集器→點擊左上角的“+”圖標→選擇自定義采集(也可以點擊主頁中自定義采集下方的“立即使用”),進入到任務配置頁面。然后輸入網址→保存網址,系統會進入到流程設計頁面并自動打開前面輸入的網址。


單網頁 3

?

網頁打開后,我們可以對任務名進行修改,不修改則默認以網頁標題命名。在運行采集前可隨時修改任務名。

?單網頁 2

?

步驟2??提取數據


在網頁中,直接選中需要提取的數據即可,窗口右上角會有對應的提示。本教程中我們以提取新聞標題、日期、正文為例,請各位靈活運用,各取所需。


單網頁 6

?

提取數據設置好,即可點擊保存并開始運行采集。但是此時的字段名為系統自動生成的。為了更加符合自己需求,可點擊右上角“流程”進入流程頁面對字段名進行修改。首先選中要修改中字段名,此時下拉框中會有備選字段名,可直接選取使用。如果沒自己想要的,就輸入新的字段名。修改好字段名后,點擊“確定”進行保存。保存后即可運行采集。


?

單網頁 8

?

所有版本均可運行本地采集,旗艦版及以上版本可運行云采集和設置定時云采集,但運行云采集前先運行本地采集進行測試。任務運行完采集后,可選Excel、CSVHTML等格式進行導出或導入數據庫。數據導出后可點擊鏈接進入數據存放文件夾內查看數據,文件默認以任務名命名。

?

單網頁 5