本文介绍使用八爪鱼采集百度搜索结果的方法

采集网站:https://www.baidu.com/?

使用功能点:

分页列表信息采集

AJAX点击和翻页

Xpath


百度:百度作为全球最大的中文搜索引擎公司,百度一直致力于让网民更平等的获取信息,?#19994;?#25152;求。百度是用户获取信息的最主要入口,随着移动互联网的发展,百度网页搜索完成了由PC向移动的转型,由连接人与信息扩展到连接人与服务,用户可以在PC、Pad、手机上访问百度主页,通过文字、语音、图像多种交互方式瞬间?#19994;?#25152;需要的信息和服务。

?

百度搜索结果采集数据说明:本文进行了百度搜索结果页信息的采集。本文仅以“百度搜索结果页信息采集”为例,大?#20197;?#23454;操过程?#26657;?#21487;根据自身需求,更换百度的其他内容进行数据采集。

?

百度搜索结果采集详细说明?#21644;?#39029;标题,网页链接,网页描述信息。

?

?

步骤1:创建采集任务

1)进入主界面,选择“自定义模式”

1

?

2)要采集的网址制?#31243;?#21040;网站输入框?#26657;?#28857;击“保存网址

2

?

步骤2:输入文本

1)在页面右上角,打开“流程”,以展现出“流程设计器”“定制当前操作”两个板块。点击搜索框,在操作提示框?#26657;?#36873;择“输入文字”

3

?

2)输入要采集的文本,这里以输入“八爪鱼采集器”为例。完成后,点击“确定”

4

?

3)输入的文本自动填充到搜索框后,点击“百度一下”按钮。在操作提示框?#26657;?#36873;择“点击该按钮”

5

?

此步骤涉及Ajax技术。打开?#26696;?#32423;选项”,勾选“Ajax加载数据”,设置时间为“2秒”。完成后,点击“确定”

6

?

步骤3:创建翻页循环

1)将页面下拉到底部,点击“下一页”按钮,在右侧操作提示框?#26657;?/span>选择“循环点击下一页”,以建立一个翻页循环

7

?

此步骤涉及Ajax技术。打开?#26696;?#32423;选项”,勾选“Ajax加载数据”,设置时间为“2秒”。完成后,点击“确定”

8

?

2)选中“循环翻页”步骤,打开?#26696;?#32423;选项”,将单个元素中的这条Xpath://A[@class='n',复制?#31243;交?#29392;浏览器中的相应位置

9

?

3)可以看到,当在第1页的时候,使用此条Xpath,可以定位到“下一页?#20445;?#21487;正常翻页

10

?

4)当翻到第2页的时候,使用此条Xpath,既可定位到“上一页”又可定位到“下一页”。那么,八爪鱼采集器在执行的时候,无法正常点击到“下一页”

11

?

5)返回八爪鱼采集器,点击?#30333;?#23450;义”

12

?

6)勾选“元素文本=下一页>”,对应生成的Xpath为://A[text()='下一页>']。完成后,点击“确定”

13

?

7)将修改后的Xpath://A[text()='下一页>'],再次复制?#31243;交?#29392;浏览器?#23567;?#21487;以看到,当翻到第2页的时候,可正常定位到“下一页”第3、4、5、6等也可正常定位到“下一页”,翻页循环可正常运行

14

?

步骤4:创列表循环并提取数据

1)移动鼠标选中页面里第一条搜索结果的区块,再选中页面内另一条搜索结果的区块。系统会自动识别并选?#26657;?#39029;面里其他搜索结果的区块,以建立一个列表循环。在操作提示框?#26657;?#36873;择“采集以下元素文本”。整个区块里的信息,作为一个字段,被采集下来

15

?

2)选中“循环”步骤,打开?#26696;?#32423;选项”,将不固定元素列表中的这条Xpath://DIV[@id='content_left']/DIV复制?#31243;交?#29392;浏览器中的相应位置

16

?

3)将八爪鱼中的Xpath,复制?#20132;?#29392;浏览器中的相应位置。观察页面,我们不需要采集的“相关搜索”和“广告”内容也被定位了

17

?

4)观察网页源码,我们要采集的区块,具有相同的tpl属性,tpl="se_com_default"(如图红框中所示),通过tpl属性,可将要采集的区块与不需要采集的广告、推荐内容区分开来。

将Xpath修改为://DIV[@id='content_left']/DIV[@tpl="se_com_default"]。再观察页面,要采集的内容都被定位了,不需要采集的广告、推荐内容未被定位

18

?

5)将修改后的Xpath://DIV[@id='content_left']/DIV[@tpl="se_com_default"],复制?#31243;?#21040;八爪鱼采集器的相应位置。完成后,点击“确定”

19

?

6)在这里,我们还想采集每条搜索结果的链接URL。选中页面内一条搜索结果的链接,在操作提示框?#26657;?#36873;择“采集该链接地址”

20

?

7)字段选择完成后,选中相应的字段,可以进行字段的自定义命名。完成后,点击左上角的“保存并启动”,选择“启动本地采集”

21

?

步骤5:数据采集及导出

1)采集完成后,会跳出提示,选择导出数据”。选择合适的导出方式,将采集好的数据导出

22

?

2)这里我们选择excel作为导出为格式,数据导出后如下图

23