本文介紹使用八爪魚采集新浪微博評論的方法

采集網站:

https://weibo.com/mdabao?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=1#feedtop

?

使用功能點:

Ajax滾動教程

Ajax點擊和翻頁教程

分頁列表及詳細信息提取

?

新浪微博:新浪微博是一個由新浪網推出,提供微型博客服務類的社交網站。用戶可以通過網頁、WAP頁面、手機客戶端、手機短信、彩信發布消息或上傳圖片。新浪可以把微博理解為“微型博客”或者“一句話博客”。用戶可以將看到的、聽到的、想到的事情寫成一句話,或發一張圖片,通過電腦或者手機隨時隨地分享給朋友,一起分享、討論;還可以關注朋友,即時看到朋友們發布的信息。

?

新浪微博評論采集數據說明:本文進行了新浪微博-微博評價進行采集。首先個人微博主頁,然后循環點擊每一條微博,進入之后采集評價信息。本文僅以“新浪微博-微博評價采集”為例,大家在實操過程中,可根據自身需求,更換新浪微博的其他內容進行數據采集。

?

新浪微博評論采集字段詳細說明:博主ID,發博時間,博文鏈接,微博內容,微博評論。


步驟1:創建采集任務

1)進入主界面,選擇“自定義模式”

1

?

2)要采集的網址制粘貼到網站輸入框中,點擊“保存網址

2

?

步驟2:創建翻頁循環

1)系統自動打開網頁,進入微博。觀察網頁結構,當把頁面下拉至底部的時候,會出現“正在加載中,請稍后”的字樣,隨著我們的下拉,頁面會有新的數據加載出來。經過2次下拉加載,此頁面達到最底部,出現“下一頁”按鈕

3

此網頁涉及Ajax下拉加載,需要對其進行一些高級選項的設置。打開“高級選項”,勾選“頁面加載完成后向下滾動”,設置滾動次數為“4次”,每次間隔“3秒”,滾動方式為“直接滾動到底部”,最后點擊“確定”

4

注意: 這里的滾動次數及間隔時間,需要針對網站進行設置。

測試方法可以參考:八爪魚7.0教程——AJAX滾動教程

?

2)將頁面下拉到底部,點擊“下一頁”按鈕,在右側操作提示框中,選擇循環點擊下一頁

5

“打開網頁”類似,此步驟同樣涉及Ajax下拉加載。打開“高級選項”,勾選“頁面加載完成后向下滾動”,設置滾動次數為“4次”,每次間隔“3秒”,滾動方式為“直接滾動到底部”,最后點擊“確定”

6

步驟3:創列表循環

1)移動鼠標選中頁面里的第一條微博鏈接。選中后,系統會自動識別頁面里的其他相似鏈接。在右側操作提示框中,選擇“選中全部”

7

?

2)選擇“循環點擊每個鏈接”,以創建一個列表循環

8

?

3)系統會自動點擊進入第一條微博的詳情頁。觀察網頁結構,微博評論頁面,需經過1次下拉加載,才會出現“查看更多”按鈕。此步驟也涉及Ajax下拉加載。打開“高級選項”,勾選“頁面加載完成后向下滾動”,設置滾動次數為1次”每次間隔“3秒”,滾動方式為“直接滾動到底部”,最后點擊“確定”

9

?

步驟4:提取微博信息

1)微博詳情頁中,我們想采集博主ID、發博時間、微博內容、微博URL和微博評論。點擊要采集的字段,在右側的操作提示框中,選擇“采集該元素的文本”(采集微博URL,則選擇“采集該鏈接地址”)

10

?

2)字段信息選擇完成后,選中相應的字段,可以進行字段的自定義命名完成后,點擊“確定”

11

?

步驟5:提取微博評論

1)繼續觀察頁面發現,經過兩次下拉加載之后,評論才會完全加載出來,出現“查看更多”按鈕

因此,我們需要對“點擊元素”步驟,設置頁面滾動完成后向下滾動,滾動次數為“2次”,每次間隔“3秒”,滾動方式為“直接滾動到底部”,然后點擊“確定”保存

?

2)下拉頁面,找到并點擊“查看更多”按鈕。在操作提示框中,選擇“循環點擊單個元素”

由于此網頁涉及Ajax技術,我們需要進行一些高級選項的設置。選中“點擊元素”步驟,打開“高級選項”,勾選“Ajax加載數據”,設置時間為“4秒”,然后點擊“確定”保存

注:Ajax即延時加載、異步更新的一種腳本技術,通過在后臺與服務器進行少量數據交換,可以在不重新加載整個網頁的情況下,對網頁的某部分進行更新。
表現特征:a、點擊網頁中某個選項時,大部分網站的網址不會改變;b、網頁不是完全加載,只是局部進行了數據加載,有所變化。
驗證方式:點擊操作后,在瀏覽器中,網址輸入欄不會出現加載中的狀態或者轉圈狀態。

?

3)回顧采集過程,操作思路是: 打開要采集的網頁>建立微博鏈接的翻頁循環>建立微博鏈接的循環列表>點擊微博鏈接,進入微博詳情頁>建立微博評論的翻頁循環
已有的流程圖沒有遵循此邏輯,我們需要手動調整一下流程圖結構
? 選中“循環”步驟(微博鏈接的循環列表),將其拖入到圖中箭頭指向的綠色加號位置(即第1個“循環翻頁”和到第2個“循環翻頁”之間)

? 選中“循環翻頁”步驟(微博評論的循環翻頁),將其拖入到圖中箭頭指向的綠色加號位置(即“循環”(微博鏈接的循環列表)步驟中的“提取數據”后)


? 拖動完成后,流程圖如圖所示

?

4)接下來就是提取微博評論,選中頁面內的第一個評論區塊(不在操作提示框中做任何操作)

?

?

?

5)繼續選中頁面中的第二個評論區塊,選中后,全部變為綠色,在操作提示框中,選擇“采集以下數據”

?

6)自動創建循環列表完成,自動提取了很多字段。其中有多個字段都是不需要的。選中不需要的字段,點擊下面的垃圾桶圖標,可將不需要的字段刪除

?

?

?

7)字段選擇完成后,可進行自定義命名

?

?

?

8)選中圖中的“循環”(即評論列表的循環),將其拖動到流程中的綠色加號位置(先循環翻頁完,再提取數據,避免重復)

?

?

9)拖動后如圖所示

?

?

步驟6:數據采集及導出

1)點擊“開始采集”,選擇“啟動本地采集”

?

2)采集完成后,會跳出提示,選擇“導出數據”。選擇“合適的導出方式”,將采集好微博發博數據導出

?

3)這里我們選擇excel作為導出為格式,數據導出后如下圖

?