简介:ASCII 是最早的字符编码之一,它是基于拉丁字母的一个标准字符集,最初设计用于美国的英语文本。ASCII 使用7位来表示字符,最多能表示128个字符。
字符范围:从 0 到 127 的整数,其中包含了基本的英文字母、数字、标点符号和控制字符(如换行、回车等)。
应用场景:ASCII 是计算机系统中最基础的字符集,它为后来的许多字符编码(如 UTF-8)提供了基础。虽然现在较少直接使用,但它仍然是很多通信协议、旧系统和编程语言(如 C 语言)的基础字符集。
举例:
字符 'A'
的 ASCII 值是 65。
字符 'a'
的 ASCII 值是 97。
字符 '1'
的 ASCII 值是 49。
简介:UTF-8 是一种变长编码方式,可以表示全球所有的字符(即 Unicode 字符集)。它的一个显著特点是兼容 ASCII,即在 ASCII 范围内(0 到 127)UTF-8 和 ASCII 编码相同。UTF-8 用 1 到 4 个字节来编码一个字符。
字符范围:UTF-8 可以表示 Unicode 字符集中的所有字符,包括亚洲语言(如中文、日文、韩文)、表情符号、特殊符号等。
编码规则:
对于 ASCII 字符,UTF-8 用 1 字节编码。
对于其他字符,UTF-8 使用 2 到 4 字节来编码,具体取决于字符的 Unicode 值。
应用场景:UTF-8 是 Web 上最常用的字符编码标准,也是现代编程语言(如 Python、JavaScript)和操作系统(如 Linux)广泛支持的编码方式。它对存储和传输多语言文本尤其高效,且由于兼容 ASCII,广泛应用于互联网和各类文件系统中。
举例:
'A'
在 UTF-8 中的编码为 0x41
(单字节)。
中文字符 '中'
在 UTF-8 中的编码为 0xE4 0xB8 0xAD
(三字节)。
简介:UTF-16 是另一种 Unicode 编码格式,使用 16 位(2 字节)或 32 位(4 字节)来编码字符。UTF-16 能表示所有 Unicode 字符,通常采用固定长度的 2 字节编码,但对于某些字符(超出基本多语言平面 BMP 的字符),需要使用 4 字节。
字符范围:UTF-16 能表示从 U+0000 到 U+10FFFF 的所有 Unicode 字符,通常字符使用 2 字节(16 位),但补充字符(例如表情符号)则需要 4 字节(通过代理对机制)。
应用场景:UTF-16 是很多操作系统和编程语言的默认字符编码,如 Windows 和 Java。它相对来说较为简洁,并且能有效地表示大多数字符(尤其是东亚文字)。
举例:
简介:
字符范围:
应用场景:这些编码是中文环境中常见的字符编码标准,尤其在中国大陆的操作系统、应用程序和网站中广泛使用。然而,由于 Unicode(尤其是 UTF-8)的普及,许多现代应用程序逐渐转向 Unicode 编码。
举例:
'中'
在 GB2312 中的编码为 0xD6D0
(2 字节)。
'中'
在 GBK 中的编码为 0xD6D0
(2 字节)。
'中'
在 GB18030 中的编码为 0xC4E2
(4 字节)。
简介:ISO-8859 是一系列的字符编码标准,主要用于表示西方语言的字符。最常用的是 ISO-8859-1,它包含了大多数西欧语言的字符。
字符范围:ISO-8859-1 仅支持拉丁字母、数字、部分符号等,最多可表示 256 个字符(8 位编码)。其他 ISO-8859 编码(如 ISO-8859-5、ISO-8859-15 等)用于表示其他语言(如俄语、法语等)。
应用场景:ISO-8859 系列曾经是西方语言系统中常用的编码,但随着 Unicode 的普及,ISO-8859 系列逐渐被淘汰,尤其在多语言支持较强的环境中。
举例:
'A'
在 ISO-8859-1 中的编码为 0x41
(单字节)。
'é'
在 ISO-8859-1 中的编码为 0xE9
(单字节)。
简介:EBCDIC 是由 IBM 开发的一种字符编码,最早用于 IBM 的大型计算机系统(如 IBM Z 系列)。它采用 8 位表示一个字符,能表示 256 个字符。
字符范围:EBCDIC 的字符集与 ASCII 不兼容,因此其字符顺序和排列方式不同。它主要用于早期的 IBM 系统。
应用场景:虽然现在不如 ASCII 或 Unicode 常见,但 EBCDIC 仍在某些老旧的 IBM 大型机和主机系统中使用。
举例:
'A'
在 EBCDIC 中的编码为 0xC1
。'1'
在 EBCDIC 中的编码为 0xF1
。简介:Shift-JIS 是一种用于日语字符的编码标准,结合了 ASCII 和一些扩展的日语字符。它通过变长字节表示字符,其中 ASCII 字符使用 1 字节表示,而日语汉字、假名等字符则使用 2 字节表示。
字符范围:Shift-JIS 能表示常用的日文字符,包括假名、汉字等,同时保留了 ASCII 字符集。
应用场景:Shift-JIS 主要在日本的计算机系统中使用,尤其是在早期的日本操作系统和网页编码中仍有较大应用。
举例:
'A'
在 Shift-JIS 中的编码为 0x41
。
'日'
在 Shift-JIS 中的编码为 0x95 0x4F
。
简介:Big5 是一种用于繁体中文字符的编码标准,最初由台湾地区的几家公司共同制定。Big5 编码使用双字节(2 字节)来表示字符,包含了大量的繁体字和一些特殊符号。
字符范围:Big5 编码能表示繁体中文字符,包括繁体字、部分符号等。它的字符集包括约 13,000 个字符。
应用场景:Big5 主要用于台湾、香港等繁体中文地区,尽管随着 Unicode(尤其是 UTF-8)的普及,它的使用逐渐减少。
举例:
'日'
在 Big5 中的编码为 0xA4 0x4E
(双字节)。
'中'
在 Big5 中的编码为 0xA4 0xC6
(双字节)。
简介:MacRoman 是 Apple 为其 Mac 操作系统设计的字符编码,主要用于表示西方语言中的字符,尤其是在早期的 Mac OS 系统中。它基于 ASCII 编码,但扩展了对一些欧洲语言字符的支持。
字符范围:MacRoman 能表示拉丁字母及一些常用的标点符号、符号和西欧语言的字符。
应用场景:MacRoman 是早期 macOS 系统中的主要编码之一,尤其在 Mac OS 9 和之前的版本中使用。
举例:
'A'
在 MacRoman 中的编码为 0x41
。
'é'
在 MacRoman 中的编码为 0xE9
。
简介:KOI8-R 是一种用于俄语字符的编码方式,KOI8 代表 "KOI"(Kod Obmena Informatsiey,信息交换编码)和 8 位编码。KOI8-R 能表示俄语字母和一些西欧字符。
字符范围:KOI8-R 支持俄语字母,同时包含了一些基本的西欧字符和符号。
应用场景:KOI8-R 曾广泛用于俄罗斯和其他前苏联国家的计算机系统和网络中,尤其是在早期的 Unix 系统中。
举例:
'А'
在 KOI8-R 中的编码为 0xC0
。
'Я'
在 KOI8-R 中的编码为 0xDF
。
简介:Windows-1252 是微软为 Windows 操作系统开发的一种字符编码,主要用于表示西欧语言的字符。它是 ISO-8859-1 的一种扩展,增加了一些额外的符号和字符。
字符范围:Windows-1252 能表示拉丁字母、数字、标点符号等,支持西欧多种语言(如英语、法语、德语等)。
应用场景:Windows-1252 是 Windows 系统中广泛使用的字符编码之一,尤其在早期的 Windows 操作系统中,Web 页面和电子邮件等也使用它。
举例:
'A'
在 Windows-1252 中的编码为 0x41
。
'€'
在 Windows-1252 中的编码为 0x80
。
简介:ISO-2022-JP 是一种用于日语的字符编码,它是一种 "可变字节" 编码,支持多种字符集(如 ASCII 和 JIS X 0208)。它通过字符集切换来处理不同的字符。
字符范围:ISO-2022-JP 支持日文字符(如假名和汉字),并通过控制字符(ESC)来切换不同的编码集。
应用场景:ISO-2022-JP 广泛用于日本的邮件传输(如在早期的日本邮件系统中使用)和某些老旧的 Web 编码。
举例:
'A'
在 ISO-2022-JP 中的编码为 0x41
(单字节)。
'日'
在 ISO-2022-JP 中的编码为 0x1B 0x24 0x42
(三字节,含有切换码)。
简介:TIS-620 是泰国的国家标准字符编码,主要用于泰语字符。它是基于 ISO-8859-11 的一个扩展,用于表示泰文字符。
字符范围:TIS-620 包含泰文字符、拉丁字母、符号和一些控制字符。
应用场景:TIS-620 主要用于泰国地区的操作系统、网页和应用程序中,尽管 Unicode 编码(如 UTF-8)逐渐成为主流,但在一些旧的系统中仍然使用。
举例:
'อ'
在 TIS-620 中的编码为 0xE0
(单字节)。
'ท'
在 TIS-620 中的编码为 0xE5
(单字节)。
UTF-8 是最常用的现代字符编码,它支持所有 Unicode 字符,兼容 ASCII,适用于多语言环境。
UTF-16 在某些系统中(如 Windows 和 Java)较为常见,特别是在需要处理大量非拉丁字符时。
ASCII 是历史上最早的字符集,至今仍在许多系统中作为基础字符集存在。
GB2312/GBK/GB18030 主要用于中国的简体中文环境。
ISO-8859 系列 曾是西方语言编码的主流,但现已被 UTF-8 和其他 Unicode 编码逐步替代。
EBCDIC(用于 IBM 系统)、
Shift-JIS(用于日语)、
Big5(用于繁体中文)、
KOI8-R(用于俄语)等。
除了常见的 UTF 系列编码和传统的 ASCII 编码外,还有许多特定地区或语言的编码标准,这些编码仍在一些旧系统或特定语言环境中有应用,但随着 Unicode 的普及,现代系统和网络大多已经过渡到使用 UTF-8 和其他 Unicode 编码。