有关汉字字符标准的说明

GB2312编码大约包含6000多汉字(不包括特殊字符),编码范围为第一位b0-f7,第二位编码范围为a1-fe(第一位为cf时,第二位为a1-d3),计算一下汉字个数为6762个汉字。当然还有其他的字符。包括控制键和其他字符大约7573个字符编码。
gbk编码是对gb2312编码的扩充,容纳的汉字更多,但仅仅是扩充,没有质的变化。保留了所有gb2312编码,在此基础上进行编码范围的扩充.容纳(包含特殊字符)共22014个字符编码.
gb18030编码是在gbk编码基础上的扩充,因为汉字更多,仅仅使用两位编码已经不能
容纳要求的汉字,所以采用了24位混和的办法,可以支持更多的汉字编码。并且保留了原有的gbk 2字节编码兼容gb2312和gbk编码的文件。大概容纳55657个编码(包含特殊字符)
unicode编码(也就是UTF编码):俗称万国码,致力于使用统一的编码准则表达各国的文字。
为表达更多的文字,utf-8采用2/3混编的方式。目前容纳的汉字范围小于gbk编码。并且以
3字节的方式处理中文,带来了兼容性的问题,原有的gbk,gb2312,gb18030编码文件都不能正常的处理,还有很长的路要走。

到底是用UTF-8还是GB2312

倾向于 gb2312

我 现在用的是英文 2000,可除了界面的“开始”变成“Start”这样的微小变化外其他东西用起来没有感到任何差别,刚装完 2000 的时候随便去一个国内网站他就会问你是否要装简体中文,点了是,安一下,连 IE 都不用重新打开就可以直接看中文了,英文系统看中文是如此简单,换成繁体系统看简体应该没有任何差别的,不可能会出现看不了或者乱码的情况。

UTF-8 的同屏显示多语种确实是个很有意思的新玩意,不过毕竟是后来的,只要用就得成天考虑兼容问题,况且很少需要 UTF-8 的特性:我用简体中文写东西,看的人一般系统里只有简体中文或者安个简体中文就可以看了,永远不会出现一个倭文或者韩文,那么 UTF-8 还有用的必要了吗?

XML 和 DVD 这些非常好的东西,推行了很多年也无法成为“缺省配置”,恩,对,GB2312 之于 UTF-8,正如同 VCD 之于 DVD:DVD 好是好,可目前几乎所有的软件还都是用 650MB 的光盘发行,一台家用电脑可以读不了 DVD,但绝对不可以读不了普通的光盘,否则连装个系统启动起来都很困难。

UTF8还是GB2312?

早些年上网的朋友 都知道,NS或IE浏览器早期的版本并不支持多国语言的浏览,如果想浏览繁体中文、日文等外文网站还需要一个如“中文之星”或“四通立方”的外挂软件,后 来浏览器逐步发展升级,到目前为止,几乎所有浏览器都支持多国语言字符,可以浏览任意国家、语言的网站。Blog的出现,特别是Trackback的出 现,使网络国际化的行为由被动的浏览信息向主动式的交互信息过渡,然而新的语言障碍问题又出现了...

问题主要出在Blog的 Trackback(引用)、Ping(通告)、Notification(通知书)等交互具有的功能上。以前我们在理解和应用网络上的交互主要局限在C -S范围之内,也就是客户(个人)与服务器(网站)之间的信息交互,例如:在网络上发布一篇文章或回复一个论坛帖子,一般来讲这样的交互很少会出现语言不 兼容的问题。然而Blog中的Trackback等的交互方式不只是C-S的,它还是S-S(Blog网站之间)的,甚至是多重的,例如在发布一篇文章的 时候,你可以同时选择让它同时发布在一个或多个不同的Blog上,或者给指定的人发出更新通知,也可以让更多的人预订、收录你的RSS内容更新信息。 Blog的交互方式更多、更灵活,当然,这种交互并非没有限制,语言编码是一个很大障碍,如果你的Blog系统编码是中文简体的GB2312,那么所有 Trackback、Ping的交互对象就只能限于国内采用GB2312编码的用户,你的Blog也就无法与台湾、日本等采用非GB2312编码的用户实 现交互。

比较好的解决办法是采用UTF-8编码,虽然采用UTF-8编码回多占用一些空间(一个汉字需3个字节),但国际化问题总算解决 了,UTF-8兼容GB2312、BIG5、EUC-JP等多种国家的语言编码,经测试,采用UTF-8编码的Blog之间的各种交互、通讯没有任何问 题。事实上90%以上的台湾Blog都已经舍弃了BIG5,而采用UTF-8的编码方式,而大陆的Blog几乎还都是GB2312编码,看来台湾在国际化 方面还是相当领先的。

前几日,我将自己的Blog从GB2312编码转为了UTF-8编码,Trackback和Ping了几个台湾朋友的 Blog,没有发现问题。看来“国际化”的问题已经解决了,但随之而来有出现了新的问题,我的Blog与国内GB2312编码的Blog又无法交互了,当 然这是必然的。我Ping到online-edu.org(网站采用GB2312编码)上的信息都成了乱码。

我想问题到此,已经不是技术层 面的了。如果你的站点或Blog有国际化交流的需求,可通过采用UTF-8编码的方式来解决,如果没有这个需求,采用GB2312也无大碍。在用户看来都 是一样的,编码只是后台的东西。不过我希望Blogger们最好都采用UTF-8编码,因为你的Blog有了Trackback和Ping,它们可是持有 国际航班的机票,如果只在本国转悠,确实很浪费。

评论

此博客中的热门博文

热海北京

入夜的麦火

从地方地名看历史文化[zt]