中文编码变化史
Jacksing

因为匮乏一个系统性的介绍,并且现在大多数情况下都是使用 UTF-8 这样的 Unicode 编码,导致一直以来都是懵懵懂懂的应对中文编码,所以这篇博客会简要的介绍一下中文编码的发展历史,以便对中文编码的发展历史有基本的了解。

中文编码发展史

按发布时间介绍我们所使用过的几个比较重要的标准。

GB2312

GB2312 是 1981 年发布的汉字编码国家标准,该标准采用双字节编码,但是只收录了 6763 个汉字和 682 个其它符号。文字的缺失问题相对来说还是比较严重的,只能勉强使用。而且也没有收录相关少数民族的语言。

GB13000

1993 年,国际标准制定了 Unicode 1.1 的标准,在这一背景,中国推出了 GB13000 标准。
该标准收录了 GB2312,Unicode 1.1 等标准所定义的字符,总字符数达到 20902 个。该标准也是一个特立独行的标准,除了 ASCII,它不支持过往的标准。

GBK

因为 GB2312 的字符缺失问题比较严重,微软在此基础上利用 GB2312 没有利用到的编码空间,扩展了 GBK 编码,后国家将其作为一个规范。该标准收录了 GB13000 所有字符,但是能兼容 GB2312。该编码目前也在广泛的使用。

GB18030

GBK 编码仅仅是一个规范,在此基础上,国家制定了 GB18030 编码标准,该标准收录了 27484 个汉字,不对 GB13000 做兼容处理。但是目前这一标准在 Windows 系统里并没有真正的启用。详细的展开可以看这篇博客

总结

可以通过简单的几个维度来总结一下这些编码。

  1. 使用范围,目前使用比较广泛的就是 GBK 了,Windows 简体中文默认就是使用该编码,但是国家标准里要求,所有中文平台都应该支持 GB18030
  2. 从字节数的角度来看,这些字符集都是双字节字符集 DBCS(Double Byte Character Set)
  3. 从兼容性的角度来看,这些字符编码的发布时间,兼容性可以通过下图快速记住。

编码集关系

  • 本文标题:中文编码变化史
  • 本文作者:Jacksing
  • 创建时间:2022-06-09 00:12:29
  • 本文链接:https://wzzzx.github.io/encoding/chinese-encoding-history/
  • 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
 评论