UTF-8
UTF-8编码可以表示Unicode字符集中的每一个符号,范围从到。 那是 1,114,112 个可能的符号。 (并非所有这些 Unicode 代码点都已分配字符,但这并不妨碍 UTF-8 能够对它们进行编码。)
UTF-8 是一种可变宽度编码;可以参考Unicode 字符集和 UTF-8、UTF-16、UTF-32 编码这篇文章 它使用一到四个 8 位字节对每个符号进行编码。 具有较低数字代码点值的符号使用较少的字节进行编码。 这样,UTF-8 针对使用 ASCII 字符和其他 BMP 符号(其代码点范围从 到 )的常见情况进行了优化——同时仍然允许星体符号(其代码点范围从 到 ) 被存储。
MySQL 中的 utf8
很长一段时间,我一直在为数据库、表和列使用 MySQL 的 utf8 字符集,假设它映射到上述 UTF-8 编码。 通过使用 utf8,我可以在我的数据库中存储我想要的任何符号——或者我是这么认为的。
在写 JavaScript 的内部字符编码时,我注意到无法将 符号插入到该站点后面的 MySQL 数据库中。 我尝试更新的列具有 排序规则,并且连接字符集设置为 utf8。
mysql> SET NAMES utf8; # just to emphasize that the connection charset is set to `utf8` Query OK, 0 rows affected (0.00 sec) mysql> UPDATE database_name.table_name SET column_name = 'foo