乱码是怎么产生的？ASCII、Unicode、UTF-8 字符编码完整指南

你曾经打开一个文本文件，却看到满屏的「锟斤拷烫烫烫」吗？或者在处理 API 数据时，中文全部变成「??」？这些令人头疼的问题几乎全都源自同一个原因：字符编码不一致。搞懂字符编码，不只是解决技术问题，更是理解电脑如何处理文字的基础。

1. 文字与数字：电脑如何存储文字？

电脑在底层只认识 0 与 1——所有数据都以二进制表示。要存储文字，就必须建立一套「文字到数字」的对应表，告诉电脑「65 代表大写字母 A」、「20013 代表『中』这个汉字」。这套对应规则就是字符编码（Character Encoding）。

字符编码包含两个部分：

字符集（Character Set）：定义「有哪些字符」以及每个字符的编号（码位，Code Point）
编码方式（Encoding）：定义「如何用字节序列来表示这个编号」

理解这个区别很重要：Unicode 是字符集（定义了超过 14 万个字符的编号），而 UTF-8 则是其中一种编码方式（规定如何把这些编号转成字节）。

2. ASCII：万码之祖

1963 年，美国国家标准协会（ANSI）发布了 ASCII（American Standard Code for Information Interchange），这是现代字符编码的起点。ASCII 使用 7 个比特，共定义了 128 个字符（0–127），涵盖英文字母、数字、标点和控制字符。

ASCII 的设计非常适合英语，但它只有 128 个字符，完全无法容纳中文、日文或阿拉伯文。

为什么大写 A 是 65？
设计者让大小写字母之间相差 32（即第 6 个比特的差异），这样只需翻转一个比特就能在大小写之间切换——这个设计体现在 Python 的 ord('A') == 65 和 ord('a') == 97 中。

3. 各自为政的时代：GBK、Big5 与 ISO 8859

ASCII 空间不足，世界各地开始自行扩充，导致了「各自为政」的时代，也是大多数乱码问题的根源。

3.1 简体中文：GB2312 与 GBK

中国大陆于 1981 年制定 GB2312，收录 6,763 个汉字。1993 年扩充为 GBK，收录 21,003 个汉字，后来进一步扩充为 GB18030。Windows 简体中文版默认使用 GBK（代码页 936）。

3.2 繁体中文：Big5

Big5 由台湾资策会于 1984 年制定，使用两个字节表示一个中文字，共收录约 13,060 个常用及次常用汉字，主导台湾、香港的繁体中文环境。

3.3 日文：Shift-JIS 与 EUC-JP

日文编码主要有 Shift-JIS 和 EUC-JP 两种格式，互不兼容。

编码	适用语言	字符数	字节/字	主要使用地区
ASCII	英文	128	1	全球（英文）
ISO 8859-1	西欧语言	256	1	欧洲
Big5	繁体中文	13,060	2	台湾、香港
GBK	简体中文	21,003	2	中国大陆
Shift-JIS	日文	约 6,879	1–2	日本
UTF-8	所有语言	140,000+	1–4	全球

4. Unicode：终结分裂的统一标准

1991 年，Unicode 1.0 正式发布，为世界上每个字符指定唯一的码位（Code Point），以 U+ 加十六进制表示：

U+0041 → 大写字母 A
U+4E2D → 汉字「中」
U+1F600 → 😀（笑脸 Emoji）

目前 Unicode 14.0 定义了超过 144,697 个字符，涵盖 159 种文字系统。

Unicode ≠ UTF-8
这是最常见的混淆点。Unicode 是「字符编号的标准」，而 UTF-8 是「如何用字节存储这些编号的方式」。UTF-8 是 Unicode 的其中一种编码方式，另外还有 UTF-16 和 UTF-32。

5. UTF-8：为什么它成为全球标准？

UTF-8 由 Ken Thompson 和 Rob Pike 于 1992 年设计，核心是可变长度编码——根据码位大小使用 1 到 4 个字节：

1 字节：ASCII 范围（U+0000–U+007F），UTF-8 与 ASCII 完全向下兼容
2 字节：大多数欧洲语言字符
3 字节：中日韩文字（U+0800–U+FFFF）
4 字节：Emoji 和古文字（U+10000 以上）

UTF-8 之所以成为全球主流（目前占全球网页 97% 以上），关键原因：

向下兼容 ASCII：纯英文内容无需任何转换
自同步性：可在串流任意位置开始解码，不会误判
无字节序问题：UTF-16 和 UTF-32 有大小端问题，UTF-8 没有
空间效率均衡：英文 1 字节，中文 3 字节

编码	字节数/字符	兼容 ASCII	字节序问题	主要用途
UTF-8	1–4（可变）	是	无	网络传输、文件存储
UTF-16	2 或 4	否	有（需 BOM）	Windows 内部、Java 字符串
UTF-32	4（固定）	否	有	内部处理、快速索引

6. 乱码是怎么产生的？

乱码就是用错误的编码方式解读字节序列。几个典型场景：

6.1 GBK 文件用 UTF-8 打开

GBK 编码的中文字节序列不符合 UTF-8 的规则，就会显示为「â–»」或「?」之类的乱码。

6.2 Big5 与 GBK 互相误读

Big5 和 GBK 的字符空间有重叠——同样的字节值，在两种编码下代表完全不同的汉字，导致两岸三地交换文件时常出现乱码。

6.3 数据库的「??」问题

如果 MySQL 连接字符集设为 latin1，但存入的是 UTF-8 编码的中文，数据库会把无法解读的字节转成 ?，且这个过程不可逆——原始数据永久损坏。

「锟斤拷烫烫烫」是什么乱码？
这是最著名的乱码之一。「锟斤拷」通常出现在 GBK 环境下误读了 UTF-8 的替代字符（U+FFFD，即 EF BF BD）。「烫烫烫」则是 0xCDCD（未初始化内存填充值）在 GBK 下的显示结果。

7. URL 编码与字符编码

URL 中只允许特定 ASCII 字符，非 ASCII 字符必须进行百分比编码（Percent-Encoding）：将字符的 UTF-8 字节序列中每个字节以 %XX 格式表示。

例如「中文」的 URL 编码：%E4%B8%AD%E6%96%87

现代标准（RFC 3986）明确规定 URL 编码应基于 UTF-8。

立即使用 URL 编码/解码工具

8. 如何从根本避免乱码？

解决乱码的根本方法，是在整个系统链的每个环节统一使用 UTF-8：

文件：保存所有文本文件时指定 UTF-8（无 BOM）
HTML：在 <head> 最顶端加 <meta charset="UTF-8">
数据库：使用 CHARACTER SET utf8mb4（注意：MySQL 的 utf8 不支持 4 字节字符如 Emoji，应使用 utf8mb4）
数据库连接：设置 SET NAMES utf8mb4 或在 PDO 中指定 charset=utf8mb4
HTTP Headers：服务器回应加 Content-Type: text/html; charset=utf-8

立即使用文字转换工具 Base64 编解码工具

9. 小结

字符编码的演进史，是技术标准从分裂走向统一的历史：

ASCII（1963）：128 个字符，奠定英文数字化基础
分裂时代：Big5、GBK、Shift-JIS 并立，互不兼容，乱码频发
Unicode（1991+）：统一字符集，为所有文字指定唯一码位
UTF-8（1992+）：Unicode 的最佳编码方式，成为全球 97% 网页的标准

今天，只要整个技术栈统一使用 UTF-8，乱码问题几乎不会出现。看到乱码时，快速诊断方法是：找出哪个环节的编码声明与实际存储不一致，修正它即可。