MyException - 我的异常网
当前位置:我的异常网» C# » 急100分请求网页分析答案!解决办法

急100分请求网页分析答案!解决办法

www.MyException.Cn  网友分享于:2013-02-09  浏览:10次
急,100分请求网页分析答案!!
如何提取网页中 <p> </p> , <p> <p> , <br/> <br> , <br> <br> 之间的内容,包括其中的链接样式这些都不能少!!
请用C#正则表达式,非常感谢!!

------解决方案--------------------
正则表达式只能匹配正则的HTML的。举例来说,如果在下载时网络中断,那么你会得到一个不完整的HTML字符串

<html> <head> <title> Title </title>

查找head的结束标签的正则表达式会失败。
网页作者也可能会编写不符合规范的HTML代码
<input type= "submit " name= "previewcomment " value= "preview > > ">
但是浏览器会正常显示这样的HTML。
你可以使用MSHTML.tlb(随IE发布)来使用IE的解析引擎。关于如何引用这个类型库,参考
http://support.microsoft.com/kb/922275
关于如何解析HTML,参考
http://www.codeproject.com/internet/parse_html.asp
------解决方案--------------------
不明白你这需求是什么意思,以 <p> </p> 为例吧,如果网页源文件里有多组这样的标签,是都取出还是只取一个?是从 <p> 开始,取到最后一个 </p> ,还是取到这个 <p> 后的第一个 </p>

正则用
<p> [\s\S]*? </p>
即可,其它同理
如果 <p> 有其它属性,用 <p[^> ]*> [\s\S]*? </p>
用Regex.Match或Regex.Matches方法提取

如果是已获得完整的网页源文件,可以用正则分析,否则参考jiangsheng提供资源
------解决方案--------------------
/// <summary>
/// 除去Hhtm元素Script脚本
/// 分析出文本内容
/// </summary>
/// <returns> </returns>
private void ParseText()
{
string pattern;
string txt = Content;
//清除标题
pattern = " <title> .*? </title> ";
txt = Regex.Replace(txt, pattern, " ", RegexOptions.IgnoreCase | RegexOptions.Singleline);
//清里面的Style
pattern = " <style.*?> .*? </style> ";
txt = Regex.Replace(txt, pattern, " ", RegexOptions.IgnoreCase | RegexOptions.Singleline);
//清里面的Script
pattern = " <script.*?> .*? </script> ";
txt = Regex.Replace(txt, pattern, " ", RegexOptions.IgnoreCase | RegexOptions.Singleline);
//清除双引号和单引号里面的内容
pattern = @ "(\\ ')|(\\ " ") ";
txt = Regex.Replace(txt, pattern, " ");
pattern = @ " " ".*? " " ";
txt = Regex.Replace(txt, pattern, " ");
pattern = " '.*? ' ";
txt = Regex.Replace(txt, pattern, " ");
//清里面的Html标记
pattern = " <.*?> ";
txt = Regex.Replace(txt, pattern, " ", RegexOptions.IgnoreCase | RegexOptions.Singleline);
pattern = " </[a-z][0-9a-z]*> ";
txt = Regex.Replace(txt, pattern, " ", RegexOptions.IgnoreCase | RegexOptions.Singleline);
//清所有的空格和回车等残余字符
pattern = @ " | <|> | " "| '\t|\r|\n ";
txt = Regex.Replace(txt, pattern, " ", RegexOptions.Singleline);
Text = txt;
}

文章评论

60个开发者不容错过的免费资源库
60个开发者不容错过的免费资源库
程序员周末都喜欢做什么?
程序员周末都喜欢做什么?
“肮脏的”IT工作排行榜
“肮脏的”IT工作排行榜
程序员最害怕的5件事 你中招了吗?
程序员最害怕的5件事 你中招了吗?
10个调试和排错的小建议
10个调试和排错的小建议
要嫁就嫁程序猿—钱多话少死的早
要嫁就嫁程序猿—钱多话少死的早
一个程序员的时间管理
一个程序员的时间管理
团队中“技术大拿”并非越多越好
团队中“技术大拿”并非越多越好
我的丈夫是个程序员
我的丈夫是个程序员
做程序猿的老婆应该注意的一些事情
做程序猿的老婆应该注意的一些事情
Java 与 .NET 的平台发展之争
Java 与 .NET 的平台发展之争
那些争议最大的编程观点
那些争议最大的编程观点
程序员的一天:一寸光阴一寸金
程序员的一天:一寸光阴一寸金
程序猿的崛起——Growth Hacker
程序猿的崛起——Growth Hacker
程序员应该关注的一些事儿
程序员应该关注的一些事儿
十大编程算法助程序员走上高手之路
十大编程算法助程序员走上高手之路
程序员的鄙视链
程序员的鄙视链
中美印日四国程序员比较
中美印日四国程序员比较
当下全球最炙手可热的八位少年创业者
当下全球最炙手可热的八位少年创业者
看13位CEO、创始人和高管如何提高工作效率
看13位CEO、创始人和高管如何提高工作效率
每天工作4小时的程序员
每天工作4小时的程序员
代码女神横空出世
代码女神横空出世
 程序员的样子
程序员的样子
什么才是优秀的用户界面设计
什么才是优秀的用户界面设计
我是如何打败拖延症的
我是如何打败拖延症的
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
5款最佳正则表达式编辑调试器
5款最佳正则表达式编辑调试器
漫画:程序员的工作
漫画:程序员的工作
Web开发者需具备的8个好习惯
Web开发者需具备的8个好习惯
编程语言是女人
编程语言是女人
程序员都该阅读的书
程序员都该阅读的书
程序员眼里IE浏览器是什么样的
程序员眼里IE浏览器是什么样的
程序员必看的十大电影
程序员必看的十大电影
为什么程序员都是夜猫子
为什么程序员都是夜猫子
如何区分一个程序员是“老手“还是“新手“?
如何区分一个程序员是“老手“还是“新手“?
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
程序员和编码员之间的区别
程序员和编码员之间的区别
鲜为人知的编程真相
鲜为人知的编程真相
我跳槽是因为他们的显示器更大
我跳槽是因为他们的显示器更大
写给自己也写给你 自己到底该何去何从
写给自己也写给你 自己到底该何去何从
聊聊HTTPS和SSL/TLS协议
聊聊HTTPS和SSL/TLS协议
为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
总结2014中国互联网十大段子
总结2014中国互联网十大段子
“懒”出效率是程序员的美德
“懒”出效率是程序员的美德
旅行,写作,编程
旅行,写作,编程
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有