本文介紹使用八爪魚7.0采集今日頭條數據的方法

?

采集網站:

https://www.toutiao.com/ch/news_hot/

?

使用功能點:

l?Ajax滾動加載設置

l?列表內容提取

?

今日頭條:今日頭條是北京字節跳動科技有限公司開發的一款基于數據挖掘的推薦引擎產品,為用戶推薦信息,提供連接人與信息的服務的產品。由張一鳴于2012年3月創建,2012年8月發布第一個版本。今日頭條通過算法解讀微博、QQ等社交賬號登陸的使用者的興趣,進行精準的閱讀內容推薦。

?

今日頭條熱點內容采集數據說明:本文進行了今日頭條-熱點內容信息的采集。本文僅以“今日頭條-熱點內容信息采集”為例,大家在實操過程中,可根據自身需求,更換今日頭條的其他內容進行數據采集。

?

今日頭條采集字段詳細說明:內容標題,內容來源,內容評論數量,內容發布時間。

?

步驟1:創建采集任務

1)進入主界面,選擇“自定義模式”

八爪魚首頁

?

2)要采集的網址URL制粘貼到網址輸入框中,點擊“保存網址

今日頭條數據采集圖2

?

3)保存網址后,頁面將在八爪魚采集器中打開,紅色方框中的信息是這次演示要采集的內容

今日頭條數據采集圖3

步驟2:設置ajax頁面加載時間

l?設置打開網頁步驟的ajax滾動加載時間

l?找到翻頁按鈕,設置翻頁循環

l?設置翻頁步驟ajax下拉加載時間

1)網頁打開后,需要進行以下設置:打開流程圖,點擊“打開網頁”步驟,在右側的高級選項框中,勾選頁面加載完成向下滾動設置滾動次數,每次滾動間隔時間,一般設置2秒這個頁面的滾動方式選擇直接滾動到底部;最后點擊確定

今日頭條數據采集圖4

?

注意:今日頭條的網站屬于瀑布流網站,沒有翻頁按鈕,這里的滾動次數設置將影響采集的數據量

今日頭條數據采集圖5

?

?

步驟3:采集新聞內容

1)如圖,移動鼠標選中評論列表的方框,右鍵點擊,方框底色會變成綠色,然后點擊“選中子元素”

今日頭條數據采集圖6

注意:點擊右上角的流程按鈕即可展現出可視化流程圖。

?

2)然后點擊“選中全部”,將頁面中需要需要采集的信息添加到列表中

今日頭條數據采集圖7

?

注意:?在提示框中的字段上會出現一個X標識,點擊即可刪除該字段。

今日頭條數據采集圖8

?

?

3)點擊“采集以下數據”

今日頭條數據采集圖9

?

4)修改采集字段名稱,點擊下方紅色方框中的“保存并開始采集

今日頭條數據采集圖10

?

步驟4:數據采集及導出

1)根據采集的情況選擇合適的采集方式,這里選擇啟動本地采集

今日頭條數據采集圖11

說明:本地采集占用當前電腦資源進行采集,如果存在采集時間要求或當前電腦無法長時間進行采集可以使用云采集功能,云采集在網絡中進行采集,無需當前電腦支持,電腦可以關機,可以設置多個云節點分攤任務,10個節點相當于10臺電腦分配任務幫你采集,速度降低為原來的十分之一;采集到的數據可以在云上保存三個月,可以隨時進行導出操作。

?

2)采集完成后選擇合適的導出方式,將采集好的數據導出

今日頭條數據采集圖12