MyException - 我的异常网
当前位置:我的异常网» J2EE » 对于解析html成tag树的讨论

对于解析html成tag树的讨论(3)

www.MyException.Cn  网友分享于:2013-12-24  浏览:31次


提示:做这个东西的时候,感觉到可能会有版权所有者利益的问题,这也许是楼主发现没人关注html分析的原因之一吧,懂的人都在那这个本事赚钱,并被要求不要再告诉别人了

:)
------解决方案--------------------
楼主的源码共享一下!
------解决方案--------------------
c#下有段开源的代码.不过望叫什么名子了
楼主不知道有没有看过.
老外注的
------解决方案--------------------
我前段时间也参与做了个搜索引擎,采用的是HtmlParse,感觉还行,凑合着能把任务完成。
------解决方案--------------------
探讨
楼主的源码共享一下!

------解决方案--------------------
kankan.....................
------解决方案--------------------
帮顶
------解决方案--------------------
十分好,本人目前就是在做该系统
------解决方案--------------------
mark
------解决方案--------------------
xue xi
------解决方案--------------------
LZ很好的想法,我现在用的开源的东东.学习下~~~
------解决方案--------------------
UP !
------解决方案--------------------
不错,不错,真的不错 

------解决方案--------------------
由于采用的辅助结构Stack,在发现 </ABC>这样的结束标签之前,要在Stack中找到同名的Tag出库,所以对于没有结束标志的这些标签,最终都会处理的。比如 

<WWW> <input> </WWW>这种,input作为www的子节点。因为发现 </WWW>的时候,先在Stack中进行查找,发现第一个input与WWW不匹配,所以先把input出栈,然后再继续查看,找到WWW,匹配了,然后把WWW出栈,并且把前面出栈的input作为其子节点。

不错,支持一下!
------解决方案--------------------
HtmlParse, 
HtmlDocument, 

------解决方案--------------------
mark..............
------解决方案--------------------
不知道能否用html对象,找出所有childnode,此时应该是head和body,在用循环一次找出childnode,每找到一个node就判断有无childnote,应该不会很复杂,就是不知道效率怎么样,如果觉得可行的话可以继续讨论下,
顺便提一下,进来纯粹是来顶我的同姓本家
------解决方案--------------------
<a href="edit.html?id=${user.id}">修改 </a>好贴
------解决方案--------------------
看看。。
------解决方案--------------------
学习 顶
------解决方案--------------------
我还是希望看到源代码
------解决方案--------------------
,学习一下啊~
------解决方案--------------------
问下呵 怎么不用原汁的lucene

文章评论

软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有