本文演示无需代码可视化的方法使用抓取百度地图数据(以 -建设 为例)的方法
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
演示网址: map.baidu.com
百度地图:百度地图是为用户 包括智能路线规划、智能导航(驾车、步行、骑行)、实时路况等出行相关 的平台。可抓取百度地图上的各种信息。
数据说明:本文在百度地图中,选择城市为 ,搜索“建设” ,然后 搜索按钮,抓取出现的搜索结果中的 信息。
本文仅为一个示例,大家在实际操作过程中,可选择自己需要的城市,更换关键词,进行数据抓取。
步骤1:创建抓取任务
1)进入主界面,选择“自定义抓取”
放大看>>
将要抓取的网站URL复制粘贴到输入框中, “保存网址”
放大看>>
步骤2:输入抓取信息
1) 页面中的城市选择框,然后在操作提示框中,选择“更多操作”
放大看>>
2)选择“ 该元素”,进入城市选择页面
放大看>>
3)选择想要抓取的城市,这里以 为例。先选中“ ”,然后在操作提示框中,选择“ 该链接”,进入 地图
放大看>>
4)先 地图上的输入框,然后在右侧操作提示框中,选择“输入 ”
放大看>>
5)在操作框提示中,输入想要查询的文本。这里输入“建设 ”。输入完成后, “确定”
放大看>>
6)“建设 ”自动填充到输入框。先 “搜索”按钮,然后在右侧操作提示框中,选择“ 该按钮”
放大看>>
步骤3:创建翻页循环
1)我们可以看到,页面出现了建设 的搜索结果。将结果页面下拉到底部, “下一页”按钮。在右侧的操作提示框中,选择“循环 下一页”,以创建一个翻页循环
放大看>>
步骤4:创建列表循环
1)先选中搜索结果页面的第一条 信息的链接,系统会自动识别相似元素,在操作提示框中,选择“选中全部”
放大看>>
2)在操作提示框中,选择“循环 每个链接”,以创建一个列表循环
放大看>>
步骤5:提取 信息
1)创建列表循环完成后,系统会自动 第一条 信息链接,进入 详细信息页。先 要抓取的字段(这里 了 名),然后在操作提示框中,选择“抓取该元素的文本”
放大看>>
2)继续 要抓取的字段,选择“抓取该元素的文本”。抓取的字段会自动添加到上方的数据编辑框中。选中相应的字段,可以进行字段的自定义命名
放大看>>
3)经过以上操作,整个流程图建立完毕。在保存并启动任务之前,我们还需要进行一些高级选项的设置。先选中第1个“ 元素”的步骤,然后打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”,最后 “确定”
放大看>>
4)第2个“ 元素”步骤、第3个“ 元素”步骤、第4个“ 元素”步骤和 翻页步骤(如下图红框中所示),均需要勾选“Ajax加载数据”,设置时间为“2秒”,最后 “确定”
放大看>>
注:Ajax即延时加载、异步更新的一种脚本技术, 在 与 器进行少量数据交换,可以在不更新加载整个网页的情况下,对网页的某部分进行更新。
表现特征:a、 网页中某个选项时,大部分网站的网址不会改变;b、网页不是完全加载,只是局部进行了数据加载,有所变化。
验证方式: 操作后,在浏览器中,网址输入栏不会出现加载中的状态或者转圈状态。
5) 左上角的“保存并启动”,选择“启动本地抓取”
放大看>>
步骤6:数据抓取及导出
1)抓取完成后,会跳出提示,选择“导出数据”
放大看>>
2)选择“合适的导出方式”,将抓取好的数据导出
放大看>>
3)这里我们选择excel作为导出为格式,数据导出后如下图
放大看>>
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。