注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

邓征宇的BLOG

一个硬币总有不同的两面。

 
 
 

日志

 
 

【学习】东亚语言、汉字字符集  

2013-07-27 08:54:25|  分类: 人文和历史 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

电子信息交流用的汉字字符集和编码这种事情不仅是中国大陆,还有日本、韩国、台湾、香港等地都在做,并且还有两个国际组织在分别操心,并且它们的目标比大陆反而更宏伟,开始各干各的,后来才越来越融合。

***********

东亚语言

http://baike.baidu.com/view/1526140.htm

东亚语言狭义上指由汉语日语朝鲜语越南语组成的受汉字文化影响的语言群(汉字圈),广义上也包括东南亚其他汉藏语系壮侗语系南岛语系的语言。

****************

unicode
http://baike.baidu.com/view/40801.htm

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。

**************
历史上存在两个独立的尝试创立单一字符集的组织,即国际标准化组织(ISO)和多语言软件制造商组成的统一码联盟(The Unicode Consortium )。前者开发的 ISO/IEC 10646 项目,后者开发的统一码项目(维护Unicode编码标准)。因此最初制定了不同的标准。

位于美国加州的Unicode组织允许任何愿意支付会费的公司和个人加入,其成员包含了主要的计算机软硬件厂商,例如奥多比系统、苹果公司、惠普、IBM、微软、施乐等。
20世纪80年代末,组成Unicode组织的商业机构,和国际合作的国际标准化组织ISO,因为计算机普及和信息国际化的前提下,分别各自成立了Unicode组织和ISO-10646工作小组。
他们不久便发现对方的存在,大家为着相同的目的而工作,于是两个组织便共同合作开发适用于各国语言的通用码,而且“相当有默契地”各自发表Unicode和ISO-10646字集。虽然实际上两者的字集编码相同,但实质上两者确实为两个不同的标准。
统一码联盟在1991年首次发布了The Unicode Standard。Unicode的开发结合了国际标准化组织所制定的ISO/IEC 10646,即通用字符集。Unicode与ISO/IEC 10646在编码的运作原理相同,
The Unicode Standard包含了更详尽的实现信息、涵盖了更细节的主题,诸如比特编码(bitwise encoding)、校对以及呈现等。The Unicode Standard也枚举了诸多的字符特性,包含了那些必须支持两种阅读方向的文字(由左至右或由右至左的文字阅读方向,例如阿拉伯文是由右至左)。Unicode与ISO/IEC 10646这两个标准在术语上的使用有些微的不同。
1991年前后,两个项目的参与者都认识到,世界不需要两个不兼容的字符集。于是,它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码;ISO也承诺,ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值,以使得两者保持一致。两个项目仍都存在,并独立地公布各自的标准。但统一码联盟和ISO/IEC JTC1/SC2都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。在发布的时候,Unicode一般都会采用有关字码最常见的字型,但ISO 10646一般都尽可能采用Century字型。
统一码联盟积极与各标准制订机构合作,包括国际标准化组织(ISO)、国际电工委员会(IEC)、万维网联盟(W3C)、互联网工程工作小组(IETF)和欧洲计算机制造协会(ECMA)等。
中文输入法截至2009年3月,可以使用微软拼音2003或2007版本、海峰五笔9.3版本,新注音输入法和 VimIM 进行输入。

***************
CJK
http://baike.baidu.com/view/628156.htm
中日韩统一表意文字(CJK Unified Ideographs),目的是要把分别来自中文、日文、韩文、越文中,本质、意义相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。CJK 是中文(Chinese)、日文(Japanese)、韩文(Korean)三国文字的缩写。顾名思义,它能够支持这三种文字。实际上,CJK 能够支持在 LaTeX 中使用包括中文、日文、韩文在内的多种亚洲双字节文字。
CJK 是《GB2312-80》、《BIG5》等字符集的超集。
*****************

CJKV

http://baike.baidu.com/view/628154.htm

CJKV,是汉语日语韩语(朝鲜语)、越南语(Chinese-Japanese-Korean-Vietnamese)的省略。汉字文化圈内的这4种语言共同使用的汉字(包含越南的喃字、越文汉字、韩古尔、韩文汉字、平假名片假名、日文汉字)。是有关计算机国际化、地域化的字符编码的用语。CJKV的顺序是拉丁字母顺序。

对于较早废止汉字,而曾使用过汉字及本民族类汉字文字-喃字的越南语方块文字进入CJKV编码较晚。用语的使用频度以CJK较多,不过,随著越文汉字、喃字加入该计划,CJKV的称呼开始使用。

UnicodeCJK合并汉字,作为越南的文字编码规格的 TCVN 5773:1993 和 TCVN 6056:1995 与汉字(越文汉字、喃字)作为原规格也合并,实际状态是CJKV。譬如,“U+7551 畑”就是日本国字之“畑”(JIS X 0208-1990之482A)与越南喃字之“畑”(TCVN 5773:1993之3C2F)的统合。

***********************
汉字文化圈

http://baike.baidu.com/view/1526140.htm

覆盖地域与现代地域区分所指的的东亚地区有的很大的重合部分,包括了中国(汉族)、越南(京族)、朝鲜半岛(朝鲜族)、日本(大和族及琉球族)等。日本的历史学者西嶋定生提出的「东亚世界论(册封体制论)」,成为了有关历史学的「文化圈」概念形成的模型之一。

汉语、日语、朝鲜语、越南语中含有大量古汉语起源的词汇,把文言文(汉文)作为书面语。
在中国以外的地区,作为书面语被利用的古汉语文言文对没有文字的民族的语言的文字化带来了影响。古汉语的词法和语言生成规则也被应用到这些的语言。近代,日本利用汉字发明的汉熟语的和制汉语在中文也被再借用,中国人大多未意识到那些是日本制造的词汇。(类似大量引入古希腊拉丁词汇的英语,现在按照希腊拉丁系构词法利用罗马字母制造新词又逆输入罗曼语系诸语中。)

东亚文化圈

现在,源自古汉语的词汇的表记用传统汉字(包括汉语<以及中国的台湾、香港、澳门地区>,日语<旧字体>,朝鲜语有时用汉字表示汉字词),简化的汉字(汉语<中国、新加坡等>,日语<新字体>),表音文字(朝鲜语,日语有时用假名)以及改良的罗马字(越南语国语字)。声调:汉语、越南语、缅甸语、泰语、老挝语及其他东南 亚大陆和中国南部的语言大多是声调语言。日语、朝鲜语及南岛语系的语言不是声调语言。(日语和朝鲜语被相信可能属于同一语系,他们存在着汉藏语系和其他的语系没有的几个特征。)越南语、汉语、藏语原本没有声调,而后边发展出了声调(tonogenesis)的观点被提及。

敬语系统发达是爪哇语藏语、日语、朝鲜语共同存在的特征。 ● 近代化的实际需要,敬语走向简单化的道路。这样的现象出现在印尼语英语中,避开复杂的敬语,追求平等主义。

汉语中的敬语体虽消失了,例外的、几千年前就存在的汉藏语系,所有的人都一直使用稳定的人称代名词至今。

语言的关系

东亚语言的特征与邻接的大洋洲语言印度太平洋大语系古西伯利亚语言以及印欧语系闪含语系对比鲜明。与东亚相隔更远的非洲各语言中有一部分同样是具有单音节且带有声调,名词多样化等特征但这些特征被认为是非洲各语言独立发展出来的。

东亚、东南亚的语言被分成复数的语系,意味着它们不存在共同的源头。伴随的这些地域性特征的是数千年的借用方式,即典型的言语联合。属于这个语言的最原始语系假定如下:

● 汉藏语系(Sino-Tibetan languages)

● 苗瑶语族(Hmong-Mien languages)

● 壮侗语系(Tai-Kadai languages)

● 南方诸语言(Austric languages)

  评论这张
 
阅读(314)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017