MyException - 我的异常网
当前位置:我的异常网» C# » 滤掉 html标记_正则表达式有关问题

滤掉 html标记_正则表达式有关问题

www.MyException.Cn  网友分享于:2013-01-20  浏览:11次
滤掉 html标记_正则表达式问题
大家好!   我遇到了一个正则表达式问题    
Regex   rx   =   new   Regex(@ "( <\/?(?!td|tr|u|table|img|div|span|br|object|select|/select|OPTION|/OPTION|param|&nbsp|sup|/sup|sub|/sub|p|/p)[^> \/]*)\/?> | <![^> ]+> ",   RegexOptions.IgnoreCase);
string   result   =   rx.Replace(str,   " ");
我的目的是   滤掉   html标记(除tr|u|table|img|div|span.....特殊标记)

遇到问题是

str= " <font> 111 <IMG   ondblclick=Modify(this);   title=\ "wertewt <   <   <   123.GIF\ "> </font> ";  

应得到结果:

111 <IMG   ondblclick=Modify(this);   title= "wertewt <   <   <   123.GIF "   >


但实际   我得到的是   111 <IMG   ondblclick=Modify(this);   title= "wertewt


------解决方案--------------------
你想滤掉 html 标记,建议你不要用一个模式处理所有标记,可以写一组模式,每个模式滤掉一个标记,用循环来处理。这样做有两个好处,首先,每个标记的模式都很简单,日后很好理解,其次,你可以在外部文件中记录这组模式,当你想增加两个标记时不需要重新编译。

比如去掉 font,用这个模式把原来的串换成 $1,(?is: <font> (.*?) </font> )
------解决方案--------------------
LS是否考虑过下面这个问题
<IMG ondblclick=Modify(this); title=\ "wertewt < < < 123.GIF\ ">
如果考虑并解决了,那么一个正则就全部解决了,根本用不着多个正则,如果上面这个问题没有解决,那么再多的正则也没用

另外就是正则效率本来就低,如果再写多个正则,每个正则去循环替换一次,那效率就不用想了。。。

因为可能在 " "或 ' '内锯含“ <”和“> ”这两个字符,所以无法使用平衡组来做,只能用多重匹配,但写了一个,在测试工具里通过,程序里会导致程序崩溃,正则解决这类问题还是比较吃力的

在另一个帖子里我用有限状态机实现了,可以做下参考
http://community.csdn.net/Expert/topic/5744/5744945.xml?temp=.806698


------解决方案--------------------
html的规则其实很复杂的。 <(\w+)> [^ <]+ <\1> 这样的,或者没有后面部分的。或者嵌套的。规则复杂的还是交给.net作好了。你html放到webbrower里头,然后用outterText获取文本。

文章评论

为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
要嫁就嫁程序猿—钱多话少死的早
要嫁就嫁程序猿—钱多话少死的早
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
聊聊HTTPS和SSL/TLS协议
聊聊HTTPS和SSL/TLS协议
代码女神横空出世
代码女神横空出世
程序员的鄙视链
程序员的鄙视链
总结2014中国互联网十大段子
总结2014中国互联网十大段子
团队中“技术大拿”并非越多越好
团队中“技术大拿”并非越多越好
60个开发者不容错过的免费资源库
60个开发者不容错过的免费资源库
鲜为人知的编程真相
鲜为人知的编程真相
老程序员的下场
老程序员的下场
程序猿的崛起——Growth Hacker
程序猿的崛起——Growth Hacker
每天工作4小时的程序员
每天工作4小时的程序员
我的丈夫是个程序员
我的丈夫是个程序员
程序员眼里IE浏览器是什么样的
程序员眼里IE浏览器是什么样的
如何成为一名黑客
如何成为一名黑客
程序员应该关注的一些事儿
程序员应该关注的一些事儿
Java 与 .NET 的平台发展之争
Java 与 .NET 的平台发展之争
不懂技术不要对懂技术的人说这很容易实现
不懂技术不要对懂技术的人说这很容易实现
那些争议最大的编程观点
那些争议最大的编程观点
“懒”出效率是程序员的美德
“懒”出效率是程序员的美德
程序员的一天:一寸光阴一寸金
程序员的一天:一寸光阴一寸金
如何区分一个程序员是“老手“还是“新手“?
如何区分一个程序员是“老手“还是“新手“?
老美怎么看待阿里赴美上市
老美怎么看待阿里赴美上市
漫画:程序员的工作
漫画:程序员的工作
旅行,写作,编程
旅行,写作,编程
为什么程序员都是夜猫子
为什么程序员都是夜猫子
程序员和编码员之间的区别
程序员和编码员之间的区别
10个调试和排错的小建议
10个调试和排错的小建议
程序员最害怕的5件事 你中招了吗?
程序员最害怕的5件事 你中招了吗?
10个帮程序员减压放松的网站
10个帮程序员减压放松的网站
程序员必看的十大电影
程序员必看的十大电影
Java程序员必看电影
Java程序员必看电影
当下全球最炙手可热的八位少年创业者
当下全球最炙手可热的八位少年创业者
做程序猿的老婆应该注意的一些事情
做程序猿的老婆应该注意的一些事情
科技史上最臭名昭著的13大罪犯
科技史上最臭名昭著的13大罪犯
十大编程算法助程序员走上高手之路
十大编程算法助程序员走上高手之路
5款最佳正则表达式编辑调试器
5款最佳正则表达式编辑调试器
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
中美印日四国程序员比较
中美印日四国程序员比较
程序员都该阅读的书
程序员都该阅读的书
我跳槽是因为他们的显示器更大
我跳槽是因为他们的显示器更大
我是如何打败拖延症的
我是如何打败拖延症的
一个程序员的时间管理
一个程序员的时间管理
Web开发者需具备的8个好习惯
Web开发者需具备的8个好习惯
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有