字符编码知识:Unicode

要想了解字符编码,有一个东西是必须了解的,那就是Unicode。

关于Unicode,网上的介绍也有很多。比如Wiki上的介绍如下:

Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。

Unicode伴随着通用字符集的标准而发展,同时也以书本的形式[1]对外发表。Unicode至今仍在不断增修,每个新版本都加入更多新的字符。目前最新的版本为7.0.0,已收入超过十万个字符(第十万个字符在2005年获采纳)。Unicode涵盖的数据除了视觉上的字形、编码方法、标准的字符编码外,还包含了字符特性,如大小写字母。

Unicode发展由非营利机构统一码联盟负责,该机构致力于让Unicode方案取代既有的字符编码方案。因为既有的方案往往空间非常有限,亦不适用于多语环境。

Unicode备受认可,并广泛地应用于电脑软件的国际化与本地化过程。有很多新科技,如可扩展置标语言、Java编程语言以及现代的操作系统,都采用Unicode编码。

对于Unicode,要注意的是以下几点:

  1. Unicode不是一种编码,而是一种标准。而UTF8、UTF16、UTF32才是编码,它们是对Unicode标准的实现。
  2. 对于现在的操作系统,其多语言的内部操作基本上是基于Unicode来实现的。比如输入法等。
  3. 对于现代的编码语言,其内部也基本上是用Unicode来实现的。
  4. Unicode有一个有争议的地方,就是中日韩有一些汉字字型是相同的,对于这一部分汉字,字型相同的都用的是同一个编码。也就是说中文里的“中”和日语里的“中”其实是同一个编码。这样的话,对于文字显示开说,就无法区别这是中文还是日语。

对于Unicode的详细信息,可以查看Unicode官方网站(地址:http://www.unicode.org/)

转载请注明:宇托的狗窝 » 字符编码知识:Unicode

发表我的评论
取消评论

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址