MyException - 我的异常网
当前位置:我的异常网» 行业应用 » 新手学习网页爬虫之百度map关键词搜索结果列表过程

新手学习网页爬虫之百度map关键词搜索结果列表过程笔记

www.MyException.Cn  网友分享于:2018-03-30  浏览:0次
新手学习网页爬虫之百度地图关键词搜索结果列表过程笔记

本文演示无需代码可视化的方法使用抓取百度地图数据(以 -建设 为例)的方法



在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录

 

文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。

演示网址: map.baidu.com

 

百度地图:百度地图是为用户 包括智能路线规划、智能导航(驾车、步行、骑行)、实时路况等出行相关 的平台。可抓取百度地图上的各种信息。

 

数据说明:本文在百度地图中,选择城市为 ,搜索“建设” ,然后 搜索按钮,抓取出现的搜索结果中的 信息。

本文仅为一个示例,大家在实际操作过程中,可选择自己需要的城市,更换关键词,进行数据抓取。

 

步骤1:创建抓取任务

1)进入主界面,选择“自定义抓取”

 

放大看>>

将要抓取的网站URL复制粘贴到输入框中, “保存网址”

 

放大看>>

 

步骤2:输入抓取信息

1)  页面中的城市选择框,然后在操作提示框中,选择“更多操作”

 

放大看>>

2)选择“ 该元素”,进入城市选择页面

 

放大看>>

3)选择想要抓取的城市,这里以 为例。先选中“ ”,然后在操作提示框中,选择“ 该链接”,进入 地图

 

放大看>>

4)先 地图上的输入框,然后在右侧操作提示框中,选择“输入 ”

 

放大看>>

5)在操作框提示中,输入想要查询的文本。这里输入“建设 ”。输入完成后, “确定”

 

放大看>>

6)“建设 ”自动填充到输入框。先 “搜索”按钮,然后在右侧操作提示框中,选择“ 该按钮”

 

放大看>>

 

步骤3:创建翻页循环

1)我们可以看到,页面出现了建设 的搜索结果。将结果页面下拉到底部, “下一页”按钮。在右侧的操作提示框中,选择“循环 下一页”,以创建一个翻页循环

 

放大看>>

 

步骤4:创建列表循环

1)先选中搜索结果页面的第一条 信息的链接,系统会自动识别相似元素,在操作提示框中,选择“选中全部”

 

放大看>>

2)在操作提示框中,选择“循环 每个链接”,以创建一个列表循环

 

放大看>>

 

步骤5:提取 信息

1)创建列表循环完成后,系统会自动 第一条 信息链接,进入 详细信息页。先 要抓取的字段(这里 了 名),然后在操作提示框中,选择“抓取该元素的文本”

 

放大看>>

2)继续 要抓取的字段,选择“抓取该元素的文本”。抓取的字段会自动添加到上方的数据编辑框中。选中相应的字段,可以进行字段的自定义命名

 

放大看>>

3)经过以上操作,整个流程图建立完毕。在保存并启动任务之前,我们还需要进行一些高级选项的设置。先选中第1个“ 元素”的步骤,然后打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”,最后 “确定”

 

放大看>>

4)第2个“ 元素”步骤、第3个“ 元素”步骤、第4个“ 元素”步骤和 翻页步骤(如下图红框中所示),均需要勾选“Ajax加载数据”,设置时间为“2秒”,最后 “确定”

 

放大看>>

 

注:Ajax即延时加载、异步更新的一种脚本技术, 在 与 器进行少量数据交换,可以在不更新加载整个网页的情况下,对网页的某部分进行更新。

表现特征:a、 网页中某个选项时,大部分网站的网址不会改变;b、网页不是完全加载,只是局部进行了数据加载,有所变化。

验证方式: 操作后,在浏览器中,网址输入栏不会出现加载中的状态或者转圈状态。

 

5) 左上角的“保存并启动”,选择“启动本地抓取”

 

放大看>>

 

步骤6:数据抓取及导出

1)抓取完成后,会跳出提示,选择“导出数据”

 

放大看>>

2)选择“合适的导出方式”,将抓取好的数据导出

 

放大看>>

3)这里我们选择excel作为导出为格式,数据导出后如下图

 

放大看>>

 

文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。

文章评论

“肮脏的”IT工作排行榜
“肮脏的”IT工作排行榜
程序员眼里IE浏览器是什么样的
程序员眼里IE浏览器是什么样的
程序员周末都喜欢做什么?
程序员周末都喜欢做什么?
什么才是优秀的用户界面设计
什么才是优秀的用户界面设计
老程序员的下场
老程序员的下场
团队中“技术大拿”并非越多越好
团队中“技术大拿”并非越多越好
程序员最害怕的5件事 你中招了吗?
程序员最害怕的5件事 你中招了吗?
Google伦敦新总部 犹如星级庄园
Google伦敦新总部 犹如星级庄园
程序员的一天:一寸光阴一寸金
程序员的一天:一寸光阴一寸金
60个开发者不容错过的免费资源库
60个开发者不容错过的免费资源库
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
Java 与 .NET 的平台发展之争
Java 与 .NET 的平台发展之争
亲爱的项目经理,我恨你
亲爱的项目经理,我恨你
当下全球最炙手可热的八位少年创业者
当下全球最炙手可热的八位少年创业者
编程语言是女人
编程语言是女人
10个帮程序员减压放松的网站
10个帮程序员减压放松的网站
程序员必看的十大电影
程序员必看的十大电影
Web开发者需具备的8个好习惯
Web开发者需具备的8个好习惯
鲜为人知的编程真相
鲜为人知的编程真相
程序员和编码员之间的区别
程序员和编码员之间的区别
程序猿的崛起——Growth Hacker
程序猿的崛起——Growth Hacker
程序员的鄙视链
程序员的鄙视链
代码女神横空出世
代码女神横空出世
写给自己也写给你 自己到底该何去何从
写给自己也写给你 自己到底该何去何从
每天工作4小时的程序员
每天工作4小时的程序员
我是如何打败拖延症的
我是如何打败拖延症的
看13位CEO、创始人和高管如何提高工作效率
看13位CEO、创始人和高管如何提高工作效率
聊聊HTTPS和SSL/TLS协议
聊聊HTTPS和SSL/TLS协议
“懒”出效率是程序员的美德
“懒”出效率是程序员的美德
中美印日四国程序员比较
中美印日四国程序员比较
旅行,写作,编程
旅行,写作,编程
科技史上最臭名昭著的13大罪犯
科技史上最臭名昭著的13大罪犯
一个程序员的时间管理
一个程序员的时间管理
不懂技术不要对懂技术的人说这很容易实现
不懂技术不要对懂技术的人说这很容易实现
为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
那些性感的让人尖叫的程序员
那些性感的让人尖叫的程序员
Java程序员必看电影
Java程序员必看电影
2013年美国开发者薪资调查报告
2013年美国开发者薪资调查报告
总结2014中国互联网十大段子
总结2014中国互联网十大段子
要嫁就嫁程序猿—钱多话少死的早
要嫁就嫁程序猿—钱多话少死的早
如何成为一名黑客
如何成为一名黑客
10个调试和排错的小建议
10个调试和排错的小建议
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
程序员应该关注的一些事儿
程序员应该关注的一些事儿
程序员都该阅读的书
程序员都该阅读的书
2013年中国软件开发者薪资调查报告
2013年中国软件开发者薪资调查报告
十大编程算法助程序员走上高手之路
十大编程算法助程序员走上高手之路
做程序猿的老婆应该注意的一些事情
做程序猿的老婆应该注意的一些事情
我跳槽是因为他们的显示器更大
我跳槽是因为他们的显示器更大
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有