MyException - 我的异常网
当前位置:我的异常网» Java Web开发 » 关于抓取网页数据!解决思路

关于抓取网页数据!解决思路(2)

www.MyException.Cn  网友分享于:2013-03-09  浏览:202次

<a href="s?wd=%C9%AB%C4%D0%CD%F8&lm=0&si=&rn=10&tn=sitehao123&ie=gb2312&ct=0&cl=3&f=1&rsp=8&oq=%C9%AB%C4%D0%CD%BC">色男网</a>
这个抓取了以后,就别用正则了,用正则直接匹配到色男网很困难,
你可以查找字符串中<>的部分,去掉就行了。
用循环逐个比较字符,很容易的!
------解决方案--------------------
或者再次匹配一下,">.+<"之间的部分
------解决方案--------------------
http://manual.phpv.net/regular_expression.html这里有讲断言,看能用上不?
------解决方案--------------------
刚才学了一下零宽断言,这样写
String patternStr = "(?<=<a\\s+href\\s*=\\s*(\"s\\?wd=[^\"]*\"|[^\\s>])\\s*>).+(?=</a>)";
------解决方案--------------------


此人已经用.net实现

http://www.gjw123.com:8066/index.aspx


------解决方案--------------------
返回的html网页从XML角度解析分析估计比较慢一点,可以采用正则可能会相对快点。
------解决方案--------------------
从实际应用的角度讲:你要考虑一下你的数据源(比如你所说的baidu)当你的需求比较频繁的时候,它可能会封杀你的访问。
------解决方案--------------------
首先,这个公司没有前途,也没有钱途。


请问,给你多少月薪,有6000以上就提供给你一个解决方案,没有就算了。

1.抓取数据;
2.正则处理,递归算法;

------解决方案--------------------
用URL和HttpURLConnection
------解决方案--------------------
这个东西,做可以。但是从实现基本功能到符合客户要求。要考虑到多线程操作,异常处理。时间处理等等。
LZ可以试着做一下。但是这个鸟公司不用考虑了。垃圾公司才会这样。
------解决方案--------------------
路过 以前做过一个一样的程序 我用来抓取气象局的天气信息的
------解决方案--------------------
楼主辛苦了,这几天我也在做,我是用.net做。这里比.net那里的回复多多了。
嗯 ,楼主想取那个链接中的那几个字只从那个链接中用正则是取不到的。你可以先写个自定义函数取出一段有特殊标志的html(因为网页上可能有很多这样的链接,所以你先缩小下范围,再分析提取) 再从这其中用正则取。

我要提取的数据中有个不在那个网页(要提取的那个网页)的html中,是在它里面的嵌入那个JS文件中,这个我到现在也没取出来。哎。

帮楼主顶一下,希望楼主的问题能解决。呵呵

 
------解决方案--------------------
用Lucene+bot就可以做简单的搜索引擎,CSDN有源码,你可以去搜搜看,我以前看过,
原理是从一个网页开始抓取,提取你要的关键字和超连接,把他用Lucene保存起来,并且不断的递归抓取,原理很简单,代码也很简单,去看看
------解决方案--------------------
用httpclient抓取,放入nutch分析。通过对nutch的htmlparse进行重写对标签进行抽取。
------解决方案--------------------
[正则表达式应用] 提取彩票开奖数据
http://blog.csdn.net/Radar2006/archive/2006/12/30/1469328.aspx

------解决方案--------------------
以前用C#做过一个类似的东西
1,抓取网页(注意编码)
2,匹配(正则)
3。利用匹配结果

感觉抓取、匹配不是很难,C#的正则效率不高,特别是没有匹配时,很耗CPU

------解决方案--------------------
search.laozizhu.com 我的开源的抓取+Lucene搜索的项目
------解决方案--------------------
获得网页,解析,获得,继续抓取
------解决方案--------------------
一层抓取很简单,要是循着链接抓取多层的数据,那么楼主的写法是不科学的,数据量一大就死机了啊!要计算一下页面的PK值,可以参考一下Google的算法!
------解决方案--------------------
用栈是不是好一点,待分析的链接都进栈,分析完了就清空栈,得到新的有用的部分进栈
------解决方案--------------------
用栈是不是好一点,待分析的链接都进栈,分析完了就清空栈,得到新的有用的部分进栈
------解决方案--------------------

文章评论

软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有