本文演示无需代码可视化的方法抓取淘宝商品图片的方法:首先将淘宝商品搜索结果网页中图片的URL抓取下来,再 专用的图片批量下载工具,将抓取到的淘宝商品图片URL,下载并保存到本地电脑中,十分钟即可上手制作完成,抓取到的数据可以直接导入到数据库或网站。。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中以不需要代码的方法实现,使用到了八 爪鱼(了解详情),只作为演示使用,替换成自己拿手的工具也一样的。
演示网址:淘宝商品搜索页面
比如T恤(可更换其他关键词对淘宝商品图片进行抓取):
https://s.taobao.com/search?q=T恤
抓取数据内容:淘宝商品图片地址
使用功能点:
l 翻页设置
l 图片链接抓取
步骤1:创建淘宝商品图片抓取任务
1)进入抓取器主界面,选择自定义模式
放大看>>
2)将上面网址的网址复制粘贴到网站输入框中,点选“保存网址”
放大看>>
3)如下图红色框中的淘宝商品图片即为本次要抓取的内容。
放大看>>
步骤2:创建翻页循环
l 找到翻页按钮,设置翻页循环
l 设置ajax翻页时间
l 设置滚动页面
1)将淘宝商品搜索结果页页面下拉到底部,找到下一页按钮,鼠标点选,在右侧操作提示框中,选择“循环点选下一页”这个选项。
放大看>>
2)选择右上角的流程按钮,点选流程图中的点选翻页按钮,然后选中ajax加载数据,时间选择2秒。
放大看>>
步骤3:淘宝商品图片链接抓取
l 选中抓取的淘宝商品图片,创建图片的抓取列表
l 提取淘宝商品图片链接
1)点选需要抓取的图片,点选“选中全部”
放大看>>
2)当前页面中所有的图片地址将会被选中,点选“抓取以下图片地址”
放大看>>
注意: 在提示框中的字段上会出现一个“X”标识,点选即可删除该字段。
3)修改抓取任务名、字段名,并点选下方提示中的“保存并开始抓取”
放大看>>
4)根据抓取的情况选择合适的抓取方式,这里选择“启动本地抓取”
放大看>>
说明:本地抓取占用当前电脑资源进行抓取,如果存在抓取时间要求或当前电脑无法长时间进行抓取可以使用云抓取功能,云抓取在网络中进行抓取,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你抓取,速度降低为原来的十分之一;抓取到的数据可以在云上保存三个月,可以随时进行导出操作。
步骤4:数据抓取及导出
1)抓取完成后,会跳出提示,选择导出数据
2)选择合适的导出方式,将抓取好的数据导出
步骤5:将抓取好的淘宝商品图片URL批量转换为图片经过如上操作,我们已经得到了要抓取的淘宝商品图片的URL。接下来,再 专用的图片批量下载工具,将抓取到的图片URL中的图片,下载并保存到本地电脑中。
图片批量下载工具:https://pan.baidu.com/s/1c2n60NI
1)下载图片批量下载工具,双击文件中的MyDownloader.app.exe文件,打开软件
放大看>>
2)打开File菜单,选择从EXCEL导入(目前只支持EXCEL格式文件)
放大看>>
3)进行相关设置,设置完成后,点选OK即可导入文件
选择EXCEL文件:导入你需要下载图片地址的EXCEL文件
EXCEL表名:对应数据表的名称
文件URL列名:表内对应URL的列名称
保存文件夹名:EXCEL中需要单独一个列,列出图片想要保存到文件夹的路径,可以设置不同图片存放至不同文件夹
如果要把文件保存到文件夹,则路径需要以“”结尾,例如:“D:同步”,如果要下载后按照指定的文件名保存,则需要包含具体的文件名,例如“D:同步1.jpg”
如果下载的文件路径和文件名完全一样,则原先存在的文件会 除
放大看>>
文中以不需要代码的方法实现,使用到了八 爪鱼(了解详情),只作为演示使用,替换成自己拿手的工具也一样的。