ISO 8859
为解决256个字符不够用的问题,ISO 8859采取的不再是单个独立的编码规则,而是由一系列的字符集(共15个)所组成,分别称为ISO 8859-n(n=1,2,3…11,13…16,没有12)。其每个字符集对应不同的语言,如ISO 8859-1对应西欧语言,ISO 8859-2对应中欧语言等。其中大家所熟悉的Latin-1就是ISO 8859-1的别名,它表示整个西欧的字符集范围。需要注意的一点的是,ISO 8859-n与ASCII是兼容的,即其0000000(0x00)-01111111(0x7f)范围段与ASCII保持一致,而10000000(0x80)-11111111(0xFF)范围段被扩展用到不同的字符集。
ISO 8859是在1980年代中期甚至1990年代才陆续公布的。因此,微软公司与IBM公司等此前已经在其产品,如MS-DOS,IBM PC上使用了各自定义的编码字符集(即“代码页”Codepage)。ISO 8859公布后,也出现了一些广泛使用的代码页兼容并扩充了ISO 8859。例如,Windows代码页1252作为英文及一些西欧语言版Windows操作系统的默认编码(locale),是ISO 8859-1的超集。主要扩充之处是把ISO 8859-1的保留未用的C1区(即码位0x80-0x9F)用来编码一些可打印字符:€ ‚ ƒ „ … † ‡ ˆ ‰ Š ‹ Œ Ž ‘ ’ “ ” • – — ˜ ™ š › œ ž Ÿ 共计27个,其中各种引号就有8个。
GB系列
中国国家标准总局制定了GB 2312码,即中华人民共和国国家汉字信息交换用编码,并于1981年5月1日实施。GB 2312字符集中除常用简体汉字字符外还包括希腊字母等可能会用到的字符,但是未收录繁体中文汉字和一些生僻字。
微软利用GB 2312-80未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码。根据微软资料,GBK是对GB2312-80的扩展,也就是CP936字码表(Code Page 936)的扩展(之前CP936和GB 2312-80一模一样),最早实现于Windows 95简体中文版。虽然GBK收录GB 13000.1-93的全部字符,但编码方式并不相同。GBK自身并非国家标准,只是曾由国家技术监督局标准化司、电子工业部科技与质量监督司公布为”技术规范指导性文件”。
GB 18030,全称:“国家标准GB 18030-2005《信息技术 中文编码字符集》”,是中华人民共和国现时最新的变长度多字节字符集,是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》的修订版。对GB 2312-1980完全向后兼容,与GBK基本向后兼容;支持GB 13000及Unicode的全部统一汉字,共收录汉字70244个。GB 18030主要有以下特点:
- 采用变长多字节编码,每个字可以由1个、2个或4个字节组成。
- 编码空间庞大,最多可定义161万个字符。
- 支持中国国内少数民族文字,不需要动用造字区。
- 汉字收录范围包含繁体汉字以及日韩汉字。
- GB 18030对应Windows代码页为CP54936。
Big5,又称为大五码或五大码,是使用繁体中文(正体中文)社区中最常用的电脑汉字字符集标准,共收录13,060个汉字。中文码分为内码及交换码两类,Big5属中文内码,知名的中文交换码有CCCII、CNS11643。Big5虽普及于台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家标准,而只是业界标准。倚天中文系统、Windows等主要系统的字符集都是以Big5为基准,但厂商又各自增加不同的造字与造字区,派生成多种不同版本。2003年,Big5被收录到CNS11643中文标准交换码的附录当中,取得了较正式的地位。这个最新版本被称为Big5-2003。Big5对应Windows代码页为CP950。