本文介紹使用八爪魚采集企查查上企業信息的方法

采集網站:http://www.qichacha.com/

?

重要說明:在未登錄狀態下,此網頁僅展示5條企業信息。因此,在正式開始采集之前,我們需建立一個登錄流程。可先參考單個文本輸入及點擊登錄,建立一個登錄流程,然后參考cookie登陸,勾選打開網頁時使用指定cookie。這樣,下次再打開此網頁,即會以登錄后的狀態打開。

?

單個文本輸入及點擊登錄

/tutorialdetail-1/srdl_v70.html

cookie登錄

/tutorialdetail-1/cookie70.html

?

?

?

使用功能點:

l?列表及詳細信息采集

/tutorial/fylbxq7.aspx?t=1

l?文本循環教程

/tutorial/wbxh_7.aspx?t=1

l?AJAX點擊和翻頁

/tutorial/ajaxdjfy_7.aspx?t=1

?

企查查:企查查是蘇州朗動網絡科技公司旗下的一款企業信息查詢工具,立足于企業征信的相關信息整合,經過深度學習、特征抽取和使用圖構建技術,為用戶提供全面、可靠、透明的數據信息。

?

用戶輸入所需要查詢的公司名稱,點擊搜索,出現你所要搜索的公司,顯示工商信息,投資人,對外投資,企業年報,訴訟,失信信息,專利,著作權,商標展示,企業證書,企業新聞,企業招聘等信息。根據需要,可以生成相應的報告。

?

企查查采集數據說明:本文進行了企查查-企業搜索-企業名錄信息采集。本文僅以“企查查-企業搜索-企業名錄信息采集”為例。大家在實操過程中,可根據自身需求,更換企查查的搜索詞進行數據采集。

?

企查查采集詳細采集字段說明:公司名稱,公司鏈接,公司法定代表人,公司注冊資本,公司成立時間,聯系電話,公司郵箱,公司地址。

?

步驟1:創建采集任務

1)進入主界面,選擇“自定義采集

?

?

2)要采集網站URL制粘貼到輸入框中,點擊保存網址

?

?

步驟2:輸入采集信息

1)在頁面右上角,打開“流程”,以展現出“流程設計器”“定制當前操作”兩個板塊。點擊輸入框,然后在右側操作提示框中,選擇“輸入文字”

?

?

2)在操作框提示中,輸入想要查詢的文本。這里輸入“華為”。輸入完成后,點擊“確定”

?

?

3)“華為”會自動填充到輸入框。先點擊“查一下按鈕,然后在右側操作提示框中,選擇“點擊該按鈕”

?

?

步驟3:創建翻頁循環

1)我們可以看到,頁面出現了“華為”的搜索結果。結果頁面下拉到底部,點擊>按鈕。在右側操作提示框中,選擇循環點擊下一頁以創建一個翻頁循環

?

由于此網頁涉及Ajax技術,我們需要進行一些高級選項的設置。選中“點擊元素”步驟,打開“高級選項”,勾選“Ajax加載數據”,設置時間為“2秒”

?

?

步驟4:創建列表循環并提取數據

1)移動鼠標選中頁面里第一條企業信息區塊。系統會識別此區塊中的子元素,在操作提示框中,選擇“選中子元素”

?

?

2)系統會自動識別出頁面中的其他10組同類元素,在操作提示框中,選擇“選中全部”,以建立一個翻列表循環

?

?

3)我們可以看到,頁面中景點信息區塊里的所有元素均被選中,變為綠色。選擇“采集數據”

?

?

4)選中相應的字段,可以進行字段的自定義命名。完成后,點擊左上角的“保存”并“開始采集”,啟動采集任務

?

?

5)選擇“啟動本地采集”

?

?

步驟5:數據采集及導出

1)采集完成后,會跳出提示,選擇導出數據”,選擇合適的導出方式,將采集好的數據導出

?

?

2)這里我們選擇excel作為導出為格式,數據導出后如下圖


?