Java - 字符编码

2022-02-13 2022-02-13 约 1493 字预计阅读 3 分钟次阅读条评论

字符集

字符集是一系列字符的集合，将每个收录的字符和数字进行映射。最早的字符集是ASCII，使用一个字节进行存储字符，8位一共可以表示256个字符，而ASCII只使用了其中的128位，即0～127位，这128位里面包括了常用的英文字符以及标点符号。

一部分不使用英文的字符可以用后面的128位来表示，即128～256位，后面的128位也被称为扩展字符集。但是它表示的字符有限，对于汉字来说，用单字节无法表示完整，因此国标码采用了双字节来表示汉字（即GBK等编码）。

由于不同国家的语言编码不同，互相之间如何通过ASCII进行交流？于是就有了万国码Unicode。Unicode是一个几乎包括了世上所有字符的字符集，每个字符都有一个对应的独一无二的Unicode码，比如聊天时使用的emoji表情字符，GitHub上也可以通过 :grin: 这种写法来输出emoji字符，这个对应的是😁。

因为Unicode使用四个字节来存储，虽然编码效率高，但是会极大浪费存储空间，因此就有了对Unicode字符集进行编码解码的存储方式，如UTF-8等字符编码。字符编码其实就是对Unicode字符集的实现方式，用以约定如何用1~4个字节来存储字符。

字符编码

UTF-8

UTF-8是可变长编码，即多字节编码，在存储不同的字符时使用的字节数量是不同的。比如存储英文字母时只使用1个字节，而存储汉字时则使用3个字节。

UTF-8分为有BOM（Byte Order Marker）和无BOM的两种编码方式，现代文本编辑器在改变文件的编码时应该都看到过这两种编码。

UTF-8的好处是节省了空间，但编码效率降低了，即时间换空间。

UTF-16

UTF-16是双字节编码，属于定长编码。由于使用两个字节为一组来表示一个字符，那么就涉及到了字节顺序的问题，即大端小端的问题。这个是Mac机和PC机对字节顺序的理解不一致导致的历史遗留问题，机器在读取字节顺序时，会从低地址读取，将两个字节中的高位字节放在低地址表示，这就是大端BE，即big-endian。反之就是小端LE，即little-endian。

因此UTF-16存在三种编码：

UTF-16BE，使用两个字节进行存储的大端编码。Java就是使用的这个编码来存储字符，中文和英文都是两个字节（即char这个基础数据类型），所以Java是双字节编码。
UTF-16LE，使用两个字节进行存储的小端编码。
UTF-16，没有指定后缀，即不知道其是大端还是小端，所以需要用四个字节来存储，开始的两个字节表示该字节数组是大端还是小端。即FE FF表示大端，FF FE表示小端。

使用UTF-16的好处是编码效率较高，但浪费存储空间，属于用空间换时间。

不同字符集编码的英文字母和中文汉字的字节数

英文字母：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
编码：GB2312；字节数 : 1

编码：GBK；字节数 : 1

编码：GB18030；字节数 : 1

编码：ISO-8859-1；字节数 : 1

编码：UTF-8；字节数 : 1

编码：UTF-16；字节数 : 4

编码：UTF-16BE；字节数 : 2

编码：UTF-16LE；字节数 : 2

中文汉字：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
编码：GB2312；字节数 : 2

编码：GBK；字节数 : 2

编码：GB18030；字节数 : 2

编码：ISO-8859-1；字节数 : 1

编码：UTF-8；字节数 : 3

编码：UTF-16；字节数 : 4

编码：UTF-16BE；字节数 : 2

编码：UTF-16LE；字节数 : 2

参考链接

警告

本文最后更新于 February 13, 2022，文中内容可能已过时，请谨慎使用。

赞赏支持

微信打赏

支付宝打赏

目录

Java - 字符编码

字符集

字符编码

UTF-8

UTF-16

不同字符集编码的英文字母和中文汉字的字节数

参考链接