字符集与字符编码

前端之家收集整理的这篇文章主要介绍了字符集与字符编码前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

<table class="text"><tr class="li1">
<td class="ln"><pre class="de1">1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

文字、标点符号、图形符号、数字等统称为字符。而由字符组成的集合则成为字符集,字符集由于包含字符的多少与异同而形成了各种不同的字符集。常见字符集有:ASCII字符集、ISO 8859字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。   计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。所有字符在计算机中都是以二进制来存储的。那么一个字符究竟由多少个二进制位来表示呢?这就涉及到字符编码的概念了,比如一个字符集有8个字符,那么用3个二进制位就可以完全表示该字符集的所有字符,也即每个字符用3个二进制位进行编码。   编码(encoding)和字符集不同。字符集只是字符的集合,不一定适合作网络传送、处理,有时须经编码(encode)后才能应用。如Unicode可依不同需要以UTF-8、UTF-16、UTF-32等方式编码。   使用哪些字符。也就是说哪些汉字,字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符集”。 规定每个“字符”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做“编码”。   字符编码涉及2层含义:字符编码和存储实现。   (1) 字符编码:制定该字符集的字符编码表,即该字符集中每个字符对应的(二进制)值; (2) 存储实现:规定一个字符集中的字符由多少个字节存储。   对于一种字符集的字符编码,字符编码都是固定的,但是存储实现方式可能会有多种,比如Unicode字符编码有UTF-8、UTF-16等多种编码存储实现方式;ASCII只有一种;大多数MBCS(包括GB2312)也只有一种。   各个国家和地区在制定编码标准的时候,“字符的集合”和“编码”一般都是同时制定的。因此,平常我们所说的“字符集”,比如:GB2312,GBK,JIS 等,除了有“字符的集合”这层含义外,同时也包含了“编码”的含义。  

猜你在找的程序笔记相关文章