您在這裡

漢字簡介

漢字是漢語書寫的最基本單元,其使用最晚始于商代,曆經甲骨文、大篆、小篆、隸書、楷書(草書、行書)諸般書體變化。秦始皇統一中國,李斯整理小篆,“書同文”的曆史從此開始。盡管漢語方言發音差異很大,但是書寫系統的統一減少了方言差異造成的交流障礙。
東漢許慎在《說文解字》中将漢字構造規律概括為“六書”:象形、指事、會意、形聲、轉注、假借。其中,象形、指事、會意、形聲四項為造字原理,是“造字法”;而轉注、假借則為用字規律,是“用字法”。

三千餘年來,漢字的書寫方式變化不大,使得後人得以閱讀古文而不生窒礙。但近代西方文明進入東亞之後,整個漢字文化圈的各個國家紛紛掀起了學習 西方的思潮,其中,放棄使用漢字是這場運動的一個重要方面。這些運動的立論以為:跟西方拼音文字相比,漢字是繁瑣笨拙的。許多使用漢字國家即進行了不同程 度的漢字簡化,甚至還有完全拼音化的嘗試。日文假名的拉丁轉寫方案以及漢語多種拼音方案的出現都是基于這種思想。中國大陸将漢字筆劃參考行書草書加以省 簡,于1956年1月28日審訂通過《簡化字總表》,在中國及新加坡使用至今。台灣則一直使用繁體中文。

目前在使用漢語的地區,大都使用兩種規範漢字,分别是繁體中文(繁體字)和簡體中文(簡體字)。
漢字,是記錄漢語的文字系統,并仍然或曾經在日語和朝鮮語、越南語中使用。漢字是世界上最古老的文字之一,擁有4500年以上的曆史。狹義地說,它是漢族的文字;廣義地言,它是漢字文化圈共同的文字。

漢字是承載文化的重要工具,目前留有大量用漢字書寫的典籍。不同的方言都使用漢字作為共同書寫體系,因而漢字在曆史上對中華文明的傳播起到了重要作用,并成為東南亞文化圈形成的内在紐帶。在漢字發展過程中,留下了大量詩詞、對聯等文化,并形成了獨特的漢字書法藝術。

一個漢字一般具有多種含義,也具有很強的組詞能力,且很多漢字可獨立成詞。這導緻了漢字極高的“使用效率”,2000左右常用字即可覆蓋98% 以上的書面表達方式。加之漢字表意文字的特性,漢字的閱讀效率很高。漢字具備比字母文字更高的信息密度,因此,平均起來,同樣内容的中文表達比其他任何字 母語言的文字都短。

目前的漢字體系分為繁體字和簡體字,前者用于台灣、香港、澳門和北美的華人圈中,後者用于中國大陸和新加坡以及東南亞的華人社區。通常說來,兩種漢字書寫系統雖然有差異,常用漢字的個體差異不到25%。

由于漢字書寫複雜,“漢字落後論”的說法存在了很長時間,認為漢字是教育及信息化瓶頸,并有“漢字拉丁化”甚至廢除漢字的推動行為。現在一般認 為漢字也有突出優點,初始學習難度雖大,但掌握常用字後不存在類似海量英文單詞的繼續學習問題,且其表意特性也能充分調動人腦的學習能力。在計算機輸入問 題基本解決後,“漢字落後論”及“漢字拉丁化”已實際上逐漸被大多數人抛棄。

目前漢字系統已經基本穩定,但漢字的規範化、生僻字的自然消亡仍在繼續進行。

關于漢字編碼

為進行信息交換,各漢字使用地區都制訂了一系列漢字字符集标準。
① GB2313字符集,收入漢字6763個,符号715個,總計7478個字符,這是大陸普遍使用的簡體字符集。楷體-GB2313、仿宋-GB2313、 華文行楷等市面上絕大多數字體支持顯示這個字符集,亦是大多數輸入法所采用的字符集。市面上絕大多數所謂的繁體字體,其實采用的是GB-2313字符集簡 體字的編碼,用字體顯示為繁體字,而不是直接用gbk字符集中繁體字的編碼,錯誤百出。
② BIG-5字符集,收入13060個繁體漢字,808個符号,總計13868個字符,目前普遍使用于台灣、香港等地區。台灣教育部标準宋體楷體等港台大多數字體支持這個字符集的顯示。
③ gbk字符集,又稱大字符集(GB=GuóBiāo國标,K=擴展),包含以上兩種字符集漢字,收入21003個漢字,882個符号,共計21885個字 符,包括了中日韓(CJK)統一漢字20902個、擴展A集(CJK Ext-A) 中的漢字52個。Windows 95\98簡體中文版就帶有這個gbk.txt文件。宋體、隸書、黑體、幼圓、華文中宋、華文細黑、華文楷體、标楷體(DFKai-SB)、Arial Unicode MS、MingLiU、PMingLiU等字體支持顯示這個字符集。微軟拼音輸入法2003、全拼、紫光拼音等輸入法,能夠錄入如镕镕炁夬喆嚞姤赟赟龑 昳堃慜靕臹等gbk簡繁體漢字。
BIG-5 (繁體中文)與GB-2313 (簡體中文),編碼不相兼容,字符在不同的操作系統中便産生亂碼。文本文字的簡體與繁體(文字及編碼)之間的轉換,可用BabelPad、TextPro 或Convertz之類的轉碼軟件來解決。若是程序,Windows XP操作系統,可用Microsoft AppLocale Utility 1.0解決;Windows 2000的操作系統,大概隻有用:中文之星、四通利方、南極星、金山快譯之類的轉碼軟件方能解決了。
④ GB18030字符集,包含gbk字符集、CJK Ext-A 全部6582個漢字,共計27533個漢字。宋體-18030、方正楷體(FZKai-Z03)、書同文楷體(MS Song)宋體(ht_cjk+)、香港華康标準宋體(DFSongStd)、華康香港标準楷體、CERG Chinese Font、韓國New Gulim,以及微軟Windows Vista操作系統提供的宋黑楷仿宋等字體亦支持這個字符集的顯示。Windows 98支持這個字符集,以下的字符集則不支持。手寫輸入法逍遙筆4.0版支持GB18030字符集及方正超大字符集漢字的錄入。
⑤ 方正超大字符集,包含GB18030字符集、CJK Ext-B中的36862個漢字,共計64395個漢字。宋體-方正超大字符集支持這個字符集的顯示。Microsoft Office XP或2003簡體中文版就自帶有這個字體。Windows 2000的操作系統需安裝超大字符集支持包“Surrogate更新”。
⑥ ISO/IEC 10646 / Unicode字符集,這是全球可以共享的編碼字符集,兩者相互兼融,涵蓋了世界上主要語文的字符,其中包括簡繁體漢字,計有:CJK統一漢字20902 個,CJK Ext-A 6582個,Ext-B 42711個,共計70195個漢字。SimSun-ExtB(宋體)、MingLiU-ExtB(細明體)能顯示全部Ext-B漢字。至今尚無單獨一款 字體能夠顯示全部70195個漢字,但可用海峰五筆、新概念五筆、倉颉輸入法世紀版、新版的微軟新注音、倉颉輸入法 6.0 版(單碼功能)等輸入法錄入。Ext-C還有2萬多個漢字。詳情請參閱香港中文大學網站、馬來西亞倉颉之友網站、福建陳清钰個人網站。
⑦ 漢字構形數據庫2.3版,内含楷書字形60082個、小篆11100個、楚系簡帛文字2627個、金文3459個、甲骨文177個、異體字12768組。可以安裝該程序,亦可以解壓後使用其中的字體文件,對于整理某些古代文獻十分有用。

如果超出了輸入法所支持的字符集,就不能錄入計算機。如果沒有相應字體的支持,則顯示為黑框、方框或空白。如果操作系統或應用軟件不支持該字符集,則顯示為問号(一個或兩個)。在網頁上亦存在同樣的情況。

關于Unicode

由于各國國家标準字集所收的漢字字數、常用字的差異,雖然象中國兩岸GB/BIG5字集常用字基本類似,轉換後閱讀并不成問題,但是這種編碼轉 換的混亂關系,對文字交流始終是一種障礙。因此相關國家的标準化組織和文字工作者經過共同努力,終于在93年完成了包含中日韓(CJK)漢字的 Unicode 漢字标準ISO 10646.1。 Unicode是完全雙字節表示的多國文字編碼體系,編碼空間0x0000-0xFFFF。 ISO 10646.1漢字标準使用編碼0x4E00-9FA5,共包含20902個漢字。其中: 大陸(S)提出的漢字17124個,台灣(T)提出的漢字17258個; S與T的并集,即中國(C)提出的漢字為20158個。 日本(J)提出的漢字為12157個,中國未提出的690個(Ja); 韓國(K)提出的漢字為7477個,其中中國未提出的90個(Ka); Ja與Ka并集共744字。 支持Unicode編碼的相關電腦系統軟件,如Unix, Win95已有推出,但是由于Unicode的ASCII碼是用雙字節編碼(即一般電腦系統中的單字節ASCII碼前加 0x00),同時其漢字編碼與各國的現有編碼也不兼容,造成現有的軟件和數據不能直接使用,所以目前完全使用Unicode軟件系統的用戶并不多,大多數 隻将它此作為一個國際語言編碼标準來使用。

發表新回應

Plain text

  • 不允許使用 HTML 標籤。
  • 自動將網址與電子郵件地址轉變為連結。
  • 自動斷行和分段。