MyException - 我的异常网
当前位置:我的异常网» ASP.NET » HtmlEncode 为什么要 encode 大于 0xa0 的A SCII 字

HtmlEncode 为什么要 encode 大于 0xa0 的A SCII 字符呢

www.MyException.Cn  网友分享于:2015-02-11  浏览:0次
HtmlEncode 为何要 encode 大于 0xa0 的A SCII 字符呢?
HtmlEncode 通常 encode 下列字符:&, ', ", <, > 和空格
这倒好理解,因为这些字符与 html 本身的标签和属性相冲突

但是为何它要 encode 大于 0xa0 之后的 ASCII  字符呢?
.NET 源码为证:
public static unsafe void HtmlEncode(string value, TextWriter output)
        {
            if (value != null)
            {
                if (output == null)
                {
                    throw new ArgumentNullException("output");
                }
                int num = IndexOfHtmlEncodingChars(value, 0);
                if (num == -1)
                {
                    output.Write(value);
                }
                else
                {
                    int num2 = value.Length - num;
                    fixed (char* str = ((char*) value))
                    {
                        char* chPtr2 = str;
                        while (num-- > 0)
                        {
                            chPtr2++;
                            output.Write(chPtr2[0]);
                        }
                        while (num2-- > 0)
                        {
                            chPtr2++;
                            char ch = chPtr2[0];
                            if (ch <= '>')
                            {
                                switch (ch)
                                {
                                    case '&':
                                    {
                                        output.Write("&amp;");
                                        continue;
                                    }
                                    case '\'':
                                    {
                                        output.Write("&#39;");
                                        continue;
                                    }
                                    case '"':
                                    {
                                        output.Write("&quot;");
                                        continue;
                                    }
                                    case '<':
                                    {
                                        output.Write("&lt;");
                                        continue;
                                    }
                                    case '>':
                                    {
                                        output.Write("&gt;");
                                        continue;
                                    }
                                }
                                output.Write(ch);
                                continue;
                            }
                            if ((ch >= '\x00a0') && (ch < 'Ā'))  //我说的是这个地方
                            {
                                output.Write("&#");
                                output.Write(((int) ch).ToString(NumberFormatInfo.InvariantInfo));
                                output.Write(';');
                            }
                            else
                            {
                                output.Write(ch);
                            }
                        }
                    }
                }
            }
        }

------解决思路----------------------
这些字符(U+00A0到U+00FF)属于 Latin-1 Supplement 区间。对于html,它们都有自己的名字,属于常用字符(比如U+00A0就是&nbsp;),但是不是所有字符编码都能够支持它。

比如中国的编码标准gb2312就不支持这个区间内的很多字符(中日韩或者说CJK国家/地区的默认编码都是如此)。如果html页面使用gb2312编码,而这些字符没有经过encode,那么会变成'?'(问号,U+003F)或者其它gb2312能表示的字符。

对于拉丁语系的地区,他们有通用的iso-8859-1编码,这个编码自然是支持 Latin-1 Supplement 的,或者说本来就是源头(它也是html5之前的版本的默认编码,html5默认使用utf8编码),也就完全不需要这样处理。可以说这个处理正是考虑到了非拉丁语系地区的编码。

换句话说,这样处理可以保证就算html页面使用gb2312编码,里面也可以"嵌入"原本gb2312不支持的Latin-1 Supplement字符,在浏览器里就能够正常显示它原本表示的那个字符。
------解决思路----------------------
应该是中文字符或别的什么字符

文章评论

程序员周末都喜欢做什么?
程序员周末都喜欢做什么?
科技史上最臭名昭著的13大罪犯
科技史上最臭名昭著的13大罪犯
一个程序员的时间管理
一个程序员的时间管理
10个帮程序员减压放松的网站
10个帮程序员减压放松的网站
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
团队中“技术大拿”并非越多越好
团队中“技术大拿”并非越多越好
总结2014中国互联网十大段子
总结2014中国互联网十大段子
10个调试和排错的小建议
10个调试和排错的小建议
做程序猿的老婆应该注意的一些事情
做程序猿的老婆应该注意的一些事情
亲爱的项目经理,我恨你
亲爱的项目经理,我恨你
我的丈夫是个程序员
我的丈夫是个程序员
什么才是优秀的用户界面设计
什么才是优秀的用户界面设计
“肮脏的”IT工作排行榜
“肮脏的”IT工作排行榜
每天工作4小时的程序员
每天工作4小时的程序员
Google伦敦新总部 犹如星级庄园
Google伦敦新总部 犹如星级庄园
程序员眼里IE浏览器是什么样的
程序员眼里IE浏览器是什么样的
鲜为人知的编程真相
鲜为人知的编程真相
我是如何打败拖延症的
我是如何打败拖延症的
程序员和编码员之间的区别
程序员和编码员之间的区别
程序员最害怕的5件事 你中招了吗?
程序员最害怕的5件事 你中招了吗?
我跳槽是因为他们的显示器更大
我跳槽是因为他们的显示器更大
老程序员的下场
老程序员的下场
聊聊HTTPS和SSL/TLS协议
聊聊HTTPS和SSL/TLS协议
为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
2013年美国开发者薪资调查报告
2013年美国开发者薪资调查报告
代码女神横空出世
代码女神横空出世
中美印日四国程序员比较
中美印日四国程序员比较
“懒”出效率是程序员的美德
“懒”出效率是程序员的美德
5款最佳正则表达式编辑调试器
5款最佳正则表达式编辑调试器
程序员应该关注的一些事儿
程序员应该关注的一些事儿
看13位CEO、创始人和高管如何提高工作效率
看13位CEO、创始人和高管如何提高工作效率
当下全球最炙手可热的八位少年创业者
当下全球最炙手可热的八位少年创业者
 程序员的样子
程序员的样子
老美怎么看待阿里赴美上市
老美怎么看待阿里赴美上市
2013年中国软件开发者薪资调查报告
2013年中国软件开发者薪资调查报告
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
如何成为一名黑客
如何成为一名黑客
要嫁就嫁程序猿—钱多话少死的早
要嫁就嫁程序猿—钱多话少死的早
不懂技术不要对懂技术的人说这很容易实现
不懂技术不要对懂技术的人说这很容易实现
程序员的一天:一寸光阴一寸金
程序员的一天:一寸光阴一寸金
程序员的鄙视链
程序员的鄙视链
漫画:程序员的工作
漫画:程序员的工作
写给自己也写给你 自己到底该何去何从
写给自己也写给你 自己到底该何去何从
Web开发者需具备的8个好习惯
Web开发者需具备的8个好习惯
程序员都该阅读的书
程序员都该阅读的书
那些争议最大的编程观点
那些争议最大的编程观点
为什么程序员都是夜猫子
为什么程序员都是夜猫子
编程语言是女人
编程语言是女人
程序员必看的十大电影
程序员必看的十大电影
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有