本书和Unicode字符数据库是Unicode字符编码标准5.0版本的权威来源。 5.0版本和以前的版本有很大不同。它对支持Unicode的需求表述得更清楚,并且它提供了更清晰的编程指导以满足新技术和新兴市场快速增长的需要,同时满足用户对安全、健壮软件的需求。 购买本书的意义 Unicode标准5.0版本更小更方便,并且包含更多的文本内容。最重要的是,该书包括所有的Unicode标准附件(Unicode Standard Annexes),提供了像文本标准化、双向算法和标识符分解等重要进程的说明。 5.0版本包含世界范围内多年来积累的经验知识并且对此进行了加强:本书吸纳了15年来用户的反馈,向用户提供了关于Unicode问题的详细解释,并且更容易入门——因为本书改进了许多图表,并对内容进行了修订。 ● 五分之四的图是新的。 ● 三分之二的定义是新的。 ● 二分之一的Unicode标准附件是新的。 ● 三分之一的一致性子句是新的。 ● 四分之一的表格是新的。 另外,本书反映了计算机书写系统的新发展。它极大地改进了对印度文翻译的描述,以满足市场的需求——印度政府支持基于Unicode的编程,本书解释了如何构建它们。5.0版本还支持最近发布的字符核心CJK子集,IICore,在东亚市场上它对于翻译和互操作是非常重要的。 简言之,本书能够使开发者为世界范围内的软件用户快速实现最新的先进技术,同时把握高速增长的市场需求。从版本3.0,4.0到5.0的改变是非常重要的——这是一本所有的Unicode开发者都需要拥有的书。 升级到5.0版本的必要性 Unicode标准5.0版本对3.0,4.0版本作了很大改变。业界已经注意到并且很快迁移到5.0版本——Windows Vista 就是在5.0版本下运行的;ICU,Google 和Yahoo也已经计划升级到5.0版本。Internet和W3C协议都建立在Unicode之上,并且继续保持适应最新的版本。国际标准ISO/IEC10646也是和5.0版本同步的。 最新版本的Unicode标准是Unicode安全机制、Unicode校勘算法、通用区域数据仓库(Common Locale Data Repository)提供的区域数据的基础,并支持正则表达式中的Unicode。改进的Unicode编码模型使得程序员能够更清楚地知道如何在UTF-8中支持Unicode文本的表示和其他编码方式。字符属性已经被系统化并更好地帮助开发者进行文本处理。标准还为Casefolding和标识符的稳定性制定了规则,对于互操作性和形式语言使用的后向兼容,以及在其他上下文环境中标识符精确使用和匹配都是非常重要的。 为了满足现代信息技术的需求,5.0版本提供了稳定、实用的字符处理模型。Unicode提供了如下功能: ● 与中国GB18030和HKSCS标准的前后兼容性。 ● 对最新建立的核心CJK字符子集、IICore的说明。 ● 改进了大小写转换(casing)和双向行为以满足业界的需求。 ● 改进了印度文的翻译指导。 ● 更好地处理合成字符、Unicode字符串、变量选择、断行和分段。 如果程序员想要和业界发展同步,利用稳定的安全性,和最新校勘及区域数据定义一致,最重要的是拓展市场,那么要尽快将标准升级到5.0版本。 详细的变化信息。从附录D中可以找到关于Unicode标准以前版本变化的详细信息,包括字符计数、稳定性保证、Unicode字符数据库更新和Unicode标准附件等。 Unicode标准5.0版本和ISO/IEC 10646:2003相一致,并且增加了修正方案1和2,同时修正方案3中增加了4种字符以支持信德语。 本书的组织结构 本书和Unicode字符数据库定义了Unicode标准5.0版本。本书提供了总则、一致性需求、程序员指导方针、字符编码表和名称,以及Unicode标准附件。 概念、体系结构、一致性和指导方针。Unicode标准5.0版本的前5章介绍了Unicode标准,提供了实现一致性的基本信息,并且描述了基本的文本处理、合成标记和编码方式。第5章则主要回答了许多实现Unicode时出现的问题。 第1章介绍了Unicode标准的基本概念、设计基础,并且全面讨论了文本处理的基本需求。 第2章介绍Unicode标准的基本原理,并且介绍了一些特定的主题,例如文本处理、整个字符属性和合成标记的使用等。 第3章是关于一致性的描述。该章还为三种处理过程提供了标准化的算法,这三种处理过程分别为:合成标记的规范排序、连接jamo的韩语音节编码和默认大小写算法。 第4章详细描述了字符属性,包括字符的标准化和信息化。Unicode字符数据库中提供了字符属性的其他信息。 第5章讨论了实现的问题,包括压缩、处理未知和不支持的字符策略,以及转换到其他标准的策略。 字符块描述。第6~16章是关于字符块描述的内容,这些章节提供了关于每种文字或者符号组的基本信息,并且还讨论了特殊的字符及相关的设计信息。其中一些信息是生成文字和其他字符集的一致性实现所必需的。 编码表。第17章提供了编码表和字符名称列表。编码表包括标准的字符编码分配,名称列表包括标准信息、有用的参考文献和注释等。 汉字偏旁-笔画索引。第18章为CJK表意文字的IICore子集提供了汉字偏旁-笔画索引。这个索引的目的是便于查找常见的表意文字在Unicode标准中的编码。 附录。附录详细介绍了Unicode标准的历史背景和它与ISO/IEC10646的关系。 附录A说明了标准中用到的一些符号的具体规定。 附录B提供了Unicode技术报告的摘要,罗列了重要的Unicode资源。 附录C详细介绍了Unicode标准和ISO/IEC 10646的关系。 附录D罗列了自4.0版本以来Unicode标准的版本发展历程。 附录E描述了在Unicode标准中的统一汉字字符集的历史。 附录F生成了Unicode协会关于字符编码稳定性的策略。 术语表、参考文献和索引。在附录之后是术语表、参考文献和Unicode字符名称索引。 Unicode标准附件 Unicode标准附件在本书的最后。这些附件构成了Unicode标准的一部分。Unicode标准版本的一致性包括附件的一致性。 Unicode标准附件#9描述了诸如阿拉伯语和希伯来语这样混合方向文本的字符定位说明。 Unicode标准附件#11提供了Unicode字符属性的说明,当和东亚字符进行互操作时是很有用的。 Unicode标准附件#14提供了Unicode字符断行属性的说明。 Unicode标准附件#15描述了四种Unicode文本的标准化格式。 Unicode标准附件#24给所有的Unicode字符代码点分配了文字名称。 Unicode标准附件#29描述了确定文本元素之间默认边界的策略:字形串、字和句子。 Unicode标准附件#31描述了在Unicode标识符定义和句法结构中推荐使用的默认规范。 Unicode标准附件#34定义了Unicode名称字符序列概念和一系列规则,这些规则强制性地将可用名字应用到字符序列里。 Unicode标准附件#41包括其他Unicode标准附件使用的参考文献。 任何一个UAX的5.0.0版本在CD-ROM中都能找到。所有版本包括最新的Unicode标准附件版本,都能在Unicode的Web站点上找到: Unicode字符数据库 Unicode字符数据库(Unicode Character Database, UCD)是数据文件的集合,它包括字符编码、字符名称和字符属性数据(4.1节有更加详细的介绍)。所有版本包括最新的Unicode字符数据库版本,在Unicode的Web站点上都有介绍: 随书赠送的光盘中包含5.0.0版本的所有Unicode字符数据库文件。 下面站点中有全部的Unicode标准版本信息: Unicode技术标准和Unicode技术报告 Unicode技术标准和Unicode技术报告是不同的,并不作为Unicode标准的一部分。 所有版本的Unicode技术标准和Unicode技术报告能够在下面的Web站点上得到: 随书赠送的光盘中也都包含每个最新版本的文档(参见附录B)。 光盘中的资料 光盘中还包括额外的信息,例如示例代码,这些信息可以在下面的FTP网站中找到:HTTP网址为: 对于光盘中的详细内容,请参见readme.txt文档。 更新资料和勘误表 Unicode标准中包括Unicode字符数据库和Unicode标准附件中的错误报告,它是通过在线报告形式进行更正的,具体网址为: Unicode的Web站点上也能找到已知的勘误表: 今后的版本都会陆续将当前修订的勘误表包含进去。