常用字符编码ASCII,UTF-8,UTF-16,UTF-32,GB2312,GBK,GB18030,ISO-8859,EBCDIC,Shift-JIS,Big5,MacRoman,KOI8-R,Windows-1252,ISO-2022-JP -在线工具大全

1. ASCII (American Standard Code for Information Interchange)

简介：ASCII 是最早的字符编码之一，它是基于拉丁字母的一个标准字符集，最初设计用于美国的英语文本。ASCII 使用7位来表示字符，最多能表示128个字符。
字符范围：从 0 到 127 的整数，其中包含了基本的英文字母、数字、标点符号和控制字符（如换行、回车等）。
应用场景：ASCII 是计算机系统中最基础的字符集，它为后来的许多字符编码（如 UTF-8）提供了基础。虽然现在较少直接使用，但它仍然是很多通信协议、旧系统和编程语言（如 C 语言）的基础字符集。
举例：
- 字符 'A' 的 ASCII 值是 65。
- 字符 'a' 的 ASCII 值是 97。
- 字符 '1' 的 ASCII 值是 49。

2. UTF-8 (Unicode Transformation Format - 8-bit)

简介：UTF-8 是一种变长编码方式，可以表示全球所有的字符（即 Unicode 字符集）。它的一个显著特点是兼容 ASCII，即在 ASCII 范围内（0 到 127）UTF-8 和 ASCII 编码相同。UTF-8 用 1 到 4 个字节来编码一个字符。
字符范围：UTF-8 可以表示 Unicode 字符集中的所有字符，包括亚洲语言（如中文、日文、韩文）、表情符号、特殊符号等。
编码规则：
- 对于 ASCII 字符，UTF-8 用 1 字节编码。
- 对于其他字符，UTF-8 使用 2 到 4 字节来编码，具体取决于字符的 Unicode 值。
应用场景：UTF-8 是 Web 上最常用的字符编码标准，也是现代编程语言（如 Python、JavaScript）和操作系统（如 Linux）广泛支持的编码方式。它对存储和传输多语言文本尤其高效，且由于兼容 ASCII，广泛应用于互联网和各类文件系统中。
举例：
- 'A' 在 UTF-8 中的编码为 0x41（单字节）。
- 中文字符 '中' 在 UTF-8 中的编码为 0xE4 0xB8 0xAD（三字节）。

3. UTF-16 (Unicode Transformation Format - 16-bit)

简介：UTF-16 是另一种 Unicode 编码格式，使用 16 位（2 字节）或 32 位（4 字节）来编码字符。UTF-16 能表示所有 Unicode 字符，通常采用固定长度的 2 字节编码，但对于某些字符（超出基本多语言平面 BMP 的字符），需要使用 4 字节。
字符范围：UTF-16 能表示从 U+0000 到 U+10FFFF 的所有 Unicode 字符，通常字符使用 2 字节（16 位），但补充字符（例如表情符号）则需要 4 字节（通过代理对机制）。
应用场景：UTF-16 是很多操作系统和编程语言的默认字符编码，如 Windows 和 Java。它相对来说较为简洁，并且能有效地表示大多数字符（尤其是东亚文字）。
举例：
- 'A' 在 UTF-16 中的编码为 0x0041（2 字节）。
- '中' 在 UTF-16 中的编码为 0x4E2D（2 字节）。

4. GB2312/GBK/GB18030（中文编码）

简介：
- GB2312 是中国大陆最早的简体中文字符集，包含了常用的简体中文字符以及部分符号、英文字母、标点符号等。
- GBK 是 GB2312 的扩展，包含了更多的中文字符，支持繁体字和一些其他汉字字符。
- GB18030 是对 GBK 的进一步扩展，涵盖了更多的字符，包括现代汉语中所有的常用字，甚至包含了大量的非汉字字符。
字符范围：
- GB2312：包含约 7,000 个字符（包括常用的简体字）。
- GBK：包含约 21,000 个字符，支持简体字、繁体字等更多的汉字。
- GB18030：包含约 27,000 个字符，几乎覆盖了所有汉字字符，且支持更多的符号和表意文字。
应用场景：这些编码是中文环境中常见的字符编码标准，尤其在中国大陆的操作系统、应用程序和网站中广泛使用。然而，由于 Unicode（尤其是 UTF-8）的普及，许多现代应用程序逐渐转向 Unicode 编码。
举例：
- '中' 在 GB2312 中的编码为 0xD6D0（2 字节）。
- '中' 在 GBK 中的编码为 0xD6D0（2 字节）。
- '中' 在 GB18030 中的编码为 0xC4E2（4 字节）。

5. ISO-8859 系列（Latin 编码）

简介：ISO-8859 是一系列的字符编码标准，主要用于表示西方语言的字符。最常用的是 ISO-8859-1，它包含了大多数西欧语言的字符。
字符范围：ISO-8859-1 仅支持拉丁字母、数字、部分符号等，最多可表示 256 个字符（8 位编码）。其他 ISO-8859 编码（如 ISO-8859-5、ISO-8859-15 等）用于表示其他语言（如俄语、法语等）。
应用场景：ISO-8859 系列曾经是西方语言系统中常用的编码，但随着 Unicode 的普及，ISO-8859 系列逐渐被淘汰，尤其在多语言支持较强的环境中。
举例：
- 'A' 在 ISO-8859-1 中的编码为 0x41（单字节）。
- 'é' 在 ISO-8859-1 中的编码为 0xE9（单字节）。

6. EBCDIC (Extended Binary Coded Decimal Interchange Code)

简介：EBCDIC 是由 IBM 开发的一种字符编码，最早用于 IBM 的大型计算机系统（如 IBM Z 系列）。它采用 8 位表示一个字符，能表示 256 个字符。
字符范围：EBCDIC 的字符集与 ASCII 不兼容，因此其字符顺序和排列方式不同。它主要用于早期的 IBM 系统。
应用场景：虽然现在不如 ASCII 或 Unicode 常见，但 EBCDIC 仍在某些老旧的 IBM 大型机和主机系统中使用。
举例：
- 字符 'A' 在 EBCDIC 中的编码为 0xC1。
- 字符 '1' 在 EBCDIC 中的编码为 0xF1。

7. Shift-JIS (Shift Japanese Industrial Standards)

简介：Shift-JIS 是一种用于日语字符的编码标准，结合了 ASCII 和一些扩展的日语字符。它通过变长字节表示字符，其中 ASCII 字符使用 1 字节表示，而日语汉字、假名等字符则使用 2 字节表示。
字符范围：Shift-JIS 能表示常用的日文字符，包括假名、汉字等，同时保留了 ASCII 字符集。
应用场景：Shift-JIS 主要在日本的计算机系统中使用，尤其是在早期的日本操作系统和网页编码中仍有较大应用。
举例：
- 'A' 在 Shift-JIS 中的编码为 0x41。
- '日' 在 Shift-JIS 中的编码为 0x95 0x4F。

8. Big5

简介：Big5 是一种用于繁体中文字符的编码标准，最初由台湾地区的几家公司共同制定。Big5 编码使用双字节（2 字节）来表示字符，包含了大量的繁体字和一些特殊符号。
字符范围：Big5 编码能表示繁体中文字符，包括繁体字、部分符号等。它的字符集包括约 13,000 个字符。
应用场景：Big5 主要用于台湾、香港等繁体中文地区，尽管随着 Unicode（尤其是 UTF-8）的普及，它的使用逐渐减少。
举例：
- '日' 在 Big5 中的编码为 0xA4 0x4E（双字节）。
- '中' 在 Big5 中的编码为 0xA4 0xC6（双字节）。

9. MacRoman

简介：MacRoman 是 Apple 为其 Mac 操作系统设计的字符编码，主要用于表示西方语言中的字符，尤其是在早期的 Mac OS 系统中。它基于 ASCII 编码，但扩展了对一些欧洲语言字符的支持。
字符范围：MacRoman 能表示拉丁字母及一些常用的标点符号、符号和西欧语言的字符。
应用场景：MacRoman 是早期 macOS 系统中的主要编码之一，尤其在 Mac OS 9 和之前的版本中使用。
举例：
- 'A' 在 MacRoman 中的编码为 0x41。
- 'é' 在 MacRoman 中的编码为 0xE9。

10. KOI8-R (KOI8-Russian)

简介：KOI8-R 是一种用于俄语字符的编码方式，KOI8 代表 "KOI"（Kod Obmena Informatsiey，信息交换编码）和 8 位编码。KOI8-R 能表示俄语字母和一些西欧字符。
字符范围：KOI8-R 支持俄语字母，同时包含了一些基本的西欧字符和符号。
应用场景：KOI8-R 曾广泛用于俄罗斯和其他前苏联国家的计算机系统和网络中，尤其是在早期的 Unix 系统中。
举例：
- 'А' 在 KOI8-R 中的编码为 0xC0。
- 'Я' 在 KOI8-R 中的编码为 0xDF。

11. Windows-1252

简介：Windows-1252 是微软为 Windows 操作系统开发的一种字符编码，主要用于表示西欧语言的字符。它是 ISO-8859-1 的一种扩展，增加了一些额外的符号和字符。
字符范围：Windows-1252 能表示拉丁字母、数字、标点符号等，支持西欧多种语言（如英语、法语、德语等）。
应用场景：Windows-1252 是 Windows 系统中广泛使用的字符编码之一，尤其在早期的 Windows 操作系统中，Web 页面和电子邮件等也使用它。
举例：
- 'A' 在 Windows-1252 中的编码为 0x41。
- '€' 在 Windows-1252 中的编码为 0x80。

12. ISO-2022-JP

简介：ISO-2022-JP 是一种用于日语的字符编码，它是一种 "可变字节" 编码，支持多种字符集（如 ASCII 和 JIS X 0208）。它通过字符集切换来处理不同的字符。
字符范围：ISO-2022-JP 支持日文字符（如假名和汉字），并通过控制字符（ESC）来切换不同的编码集。
应用场景：ISO-2022-JP 广泛用于日本的邮件传输（如在早期的日本邮件系统中使用）和某些老旧的 Web 编码。
举例：
- 'A' 在 ISO-2022-JP 中的编码为 0x41（单字节）。
- '日' 在 ISO-2022-JP 中的编码为 0x1B 0x24 0x42（三字节，含有切换码）。

13. TIS-620 (Thai Industrial Standard 620)

简介：TIS-620 是泰国的国家标准字符编码，主要用于泰语字符。它是基于 ISO-8859-11 的一个扩展，用于表示泰文字符。
字符范围：TIS-620 包含泰文字符、拉丁字母、符号和一些控制字符。
应用场景：TIS-620 主要用于泰国地区的操作系统、网页和应用程序中，尽管 Unicode 编码（如 UTF-8）逐渐成为主流，但在一些旧的系统中仍然使用。
举例：
- 'อ' 在 TIS-620 中的编码为 0xE0（单字节）。
- 'ท' 在 TIS-620 中的编码为 0xE5（单字节）。

总结：

UTF-8 是最常用的现代字符编码，它支持所有 Unicode 字符，兼容 ASCII，适用于多语言环境。
UTF-16 在某些系统中（如 Windows 和 Java）较为常见，特别是在需要处理大量非拉丁字符时。
ASCII 是历史上最早的字符集，至今仍在许多系统中作为基础字符集存在。
GB2312/GBK/GB18030 主要用于中国的简体中文环境。
ISO-8859 系列 曾是西方语言编码的主流，但现已被 UTF-8 和其他 Unicode 编码逐步替代。
EBCDIC（用于 IBM 系统）、
Shift-JIS（用于日语）、
Big5（用于繁体中文）、
KOI8-R（用于俄语）等。

除了常见的 UTF 系列编码和传统的 ASCII 编码外，还有许多特定地区或语言的编码标准，这些编码仍在一些旧系统或特定语言环境中有应用，但随着 Unicode 的普及，现代系统和网络大多已经过渡到使用 UTF-8 和其他 Unicode 编码。

常用字符编码

1. ASCII (American Standard Code for Information Interchange)

2. UTF-8 (Unicode Transformation Format - 8-bit)

3. UTF-16 (Unicode Transformation Format - 16-bit)

4. GB2312/GBK/GB18030（中文编码）

5. ISO-8859 系列（Latin 编码）

6. EBCDIC (Extended Binary Coded Decimal Interchange Code)

7. Shift-JIS (Shift Japanese Industrial Standards)

8. Big5

9. MacRoman

10. KOI8-R (KOI8-Russian)

11. Windows-1252

12. ISO-2022-JP

13. TIS-620 (Thai Industrial Standard 620)

总结：

相关功能