MyException - 我的异常网
当前位置:我的异常网» 行业应用 » 网页数据采集: 制造百姓网教育培训信息网页爬虫

网页数据采集: 制造百姓网教育培训信息网页爬虫

www.MyException.Cn  网友分享于:2018-03-12  浏览:0次
网页数据采集: 制作百姓网教育培训信息网页爬虫

本文 抓取 网-教育培训-分页列表信息的方法。。



在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录

网分类信息抓取数据说明:本文进行了 网-深圳教育培训的信息抓取。本文仅以“ 网-深圳教育培训的信息抓取”为例,大家在实操过程中,可根据自身需求,更换 网的其他内容进行数据抓取。

网分类信息抓取字段详细说明:培训名称,培训范围,培训地址,培训所属领域,培训时间。

 

步骤1:创建抓取任务

1)进入主界面,选择“自定义模式”

 

清晰原图>>

 

2)将要抓取的网址复制粘贴到网站输入框中, “保存网址”

 

清晰原图>>

 

步骤2:创建翻页循环

1)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。将页面下拉到底部, “下一页”按钮,在右侧的操作提示框中,选择“循环 下一页”,以建立一个翻页循环

 

清晰原图>>

 

步骤3:创建列表循环并提取数据1)移动鼠标,选中页面里的第一条教育培训信息的区块。系统会识别此区块中的子元素,在操作提示框中,选择“选中子元素”

 

清晰原图>>

 

2)系统会自动识别出页面中的其他同类元素,在操作提示框中,选择“选中全部”,以建立一个列表循环

 

清晰原图>>

 

3)我们可以看到,页面中教育培训信息区块的所有元素均被选中,变为绿色。选择“抓取以下数据”

 

清晰原图>>

 

4)选中字段,  桶图标,可删除不需要的字段

 

清晰原图>>

 

5)字段选择完成后,选中相应的字段,可以进行字段的自定义命名。完成后, 左上角的“保存并启动”,选择“启动本地抓取”

 

清晰原图>>

 

步骤4:修改Xpath启动数据抓取后,数据抓取出错。重新调试抓取规则,我们发现,建立“循环”列表步骤出错,需要进行一些高级选项的设置。

 

1)选中“循环”步骤,打开“高级选项”,将不固定元素列表中的这条

Xpath://HTML/BODY[1]/SECTION[2]/DIV[3]/UL[1]/LI,复制粘贴到火狐浏览器中的相应位置

 

清晰原图>>

 

2)将中的Xpath,复制粘贴到此位置。观察页面,我们可以看到,页面中我们不需要抓取的两条广告,也被定位了

 

清晰原图>>

 

3)继续观察网页源码,广告区块的源码中,class=media clearfix adsense adsense-oneline ,而培训信息区块的源码中,class=item-regular。因而, class属性,可以分辨广告区块和培训信息区块

将Xpath修改为://HTML/BODY[1]/SECTION[2]/DIV[3]/UL[1]/LI[contains(@class,item-regular)],我们发现,页面中要抓取的培训信息区块,均被定位了,而广告区块没有被定位

 

清晰原图>>

 

4)将修改后的这条Xpath://HTML/BODY[1]/SECTION[2]/DIV[3]/UL[1]/LI[contains(@class,item-regular)],复制粘贴到中, “确定”后,重新启动抓取任务,数据即可正常抓取

 

清晰原图>>

 

5)再次 左上角的“保存并启动”,选择“启动本地抓取”

 

清晰原图>>

 

步骤5:数据抓取及导出

1)抓取完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将抓取好的数据导出

 

清晰原图>>

 

2)这里我们选择excel作为导出为格式,数据导出后如下图

 

清晰原图>>

文章评论

2013年美国开发者薪资调查报告
2013年美国开发者薪资调查报告
为什么程序员都是夜猫子
为什么程序员都是夜猫子
老美怎么看待阿里赴美上市
老美怎么看待阿里赴美上市
中美印日四国程序员比较
中美印日四国程序员比较
程序员最害怕的5件事 你中招了吗?
程序员最害怕的5件事 你中招了吗?
那些性感的让人尖叫的程序员
那些性感的让人尖叫的程序员
漫画:程序员的工作
漫画:程序员的工作
60个开发者不容错过的免费资源库
60个开发者不容错过的免费资源库
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
不懂技术不要对懂技术的人说这很容易实现
不懂技术不要对懂技术的人说这很容易实现
10个帮程序员减压放松的网站
10个帮程序员减压放松的网站
我跳槽是因为他们的显示器更大
我跳槽是因为他们的显示器更大
每天工作4小时的程序员
每天工作4小时的程序员
什么才是优秀的用户界面设计
什么才是优秀的用户界面设计
Java 与 .NET 的平台发展之争
Java 与 .NET 的平台发展之争
团队中“技术大拿”并非越多越好
团队中“技术大拿”并非越多越好
5款最佳正则表达式编辑调试器
5款最佳正则表达式编辑调试器
“肮脏的”IT工作排行榜
“肮脏的”IT工作排行榜
代码女神横空出世
代码女神横空出世
如何成为一名黑客
如何成为一名黑客
旅行,写作,编程
旅行,写作,编程
老程序员的下场
老程序员的下场
“懒”出效率是程序员的美德
“懒”出效率是程序员的美德
当下全球最炙手可热的八位少年创业者
当下全球最炙手可热的八位少年创业者
程序员都该阅读的书
程序员都该阅读的书
一个程序员的时间管理
一个程序员的时间管理
看13位CEO、创始人和高管如何提高工作效率
看13位CEO、创始人和高管如何提高工作效率
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
程序员的鄙视链
程序员的鄙视链
十大编程算法助程序员走上高手之路
十大编程算法助程序员走上高手之路
程序员必看的十大电影
程序员必看的十大电影
Web开发者需具备的8个好习惯
Web开发者需具备的8个好习惯
如何区分一个程序员是“老手“还是“新手“?
如何区分一个程序员是“老手“还是“新手“?
为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
做程序猿的老婆应该注意的一些事情
做程序猿的老婆应该注意的一些事情
写给自己也写给你 自己到底该何去何从
写给自己也写给你 自己到底该何去何从
那些争议最大的编程观点
那些争议最大的编程观点
Java程序员必看电影
Java程序员必看电影
程序员应该关注的一些事儿
程序员应该关注的一些事儿
2013年中国软件开发者薪资调查报告
2013年中国软件开发者薪资调查报告
亲爱的项目经理,我恨你
亲爱的项目经理,我恨你
Google伦敦新总部 犹如星级庄园
Google伦敦新总部 犹如星级庄园
要嫁就嫁程序猿—钱多话少死的早
要嫁就嫁程序猿—钱多话少死的早
编程语言是女人
编程语言是女人
10个调试和排错的小建议
10个调试和排错的小建议
程序员和编码员之间的区别
程序员和编码员之间的区别
聊聊HTTPS和SSL/TLS协议
聊聊HTTPS和SSL/TLS协议
程序猿的崛起——Growth Hacker
程序猿的崛起——Growth Hacker
程序员周末都喜欢做什么?
程序员周末都喜欢做什么?
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有