亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關(guān)注微信公眾號(hào)

構(gòu)筑穩(wěn)健的中文Linux(上)
2008-09-18   ChinaITLab 

Linux是操作系統(tǒng)中的一朵奇葩,是中國(guó)軟件發(fā)展的機(jī)遇。要使這朵奇葩在中國(guó)的大地上生根、發(fā)芽、開花,要想抓住Linux機(jī)遇,首先必須解決中文本地化的問題。
1999年政府公開支持在中國(guó)發(fā)展Linux,國(guó)內(nèi)出現(xiàn)了好幾家制作中文Linux發(fā)布版本的公司,推動(dòng)了Linux在中國(guó)的發(fā)展和普及,但在初期中文Linux都是采用中文平臺(tái)的方式。
一、“中文平臺(tái)”
“中文平臺(tái)”是為了讓計(jì)算機(jī)能處理中文信息,在操作系統(tǒng)上建立必要的中文處理手段,即在ASCII碼的操作系統(tǒng)上架構(gòu)一個(gè)中文處理環(huán)境,用來提供中文的輸入、顯示、打印和中文文件的存儲(chǔ)、處理、傳輸,并為應(yīng)用軟件開發(fā)和運(yùn)行提供支持,俗稱“中文平臺(tái)”。
中文平臺(tái)的主要技術(shù)特點(diǎn)是在ASCII碼的操作系統(tǒng)上架構(gòu)一個(gè)中文處理環(huán)境。該中文處理環(huán)境為了簡(jiǎn)化字符處理而使用的處理碼可能是把漢字作為一個(gè)寬字符來處理,但進(jìn)出核心的代碼流都采用文件碼,即多字節(jié)字符,所以中文平臺(tái)本質(zhì)上仍是按字節(jié)處理中文。
從顯示方式來講,可分為字符界面和圖形界面兩種“中文化”方式。字符界面的“中文化”又可分為內(nèi)核漢化和外掛式兩種。內(nèi)核漢化是直接修改Linux內(nèi)核的源程序,使之能處理中文信息。外掛式是不修改Linux內(nèi)核的源程序,在原有應(yīng)用程序接口(API)之外增加一層中文信息處理的支撐平臺(tái)。
圖形界面的“中文化”本質(zhì)上都屬外掛式,但實(shí)現(xiàn)的方式有:
修改XFree 86、即修改X Server;
修改XWindow的庫(kù)函數(shù)Lib X11.so;
利用LD-PRELOAD載入動(dòng)態(tài)庫(kù)。
中文平臺(tái)具體實(shí)現(xiàn)的技術(shù)特點(diǎn)各不相同,充分展現(xiàn)了中國(guó)人的聰明才智,但也帶來一些問題。
1. 沒有相應(yīng)的標(biāo)準(zhǔn),使中文應(yīng)用軟件在多版本之間的可移植性造成困難。有可能出現(xiàn)在某一版本中文平臺(tái)上運(yùn)行的中文應(yīng)用軟件在另一個(gè)版本的中文平臺(tái)就不能運(yùn)行或不能很好運(yùn)行的情況。中文應(yīng)用軟件開發(fā)商可能要為每一個(gè)版本的中文平臺(tái)開發(fā)一個(gè)產(chǎn)品。這對(duì)中文應(yīng)用程序的發(fā)展很不利,而應(yīng)用又是Linux能否發(fā)展的一個(gè)極重要的問題。
2.中文平臺(tái)實(shí)際上仍是字節(jié)處理,而不是以字符為單位來處理,可能與ASCII碼造成沖突,不能徹底解決漢字與ASCII碼的沖突。而且不能徹底解決漢字的輸入、輸出問題,比如半個(gè)漢字的問題(顯示、刪除半個(gè)漢字,光標(biāo)半個(gè)漢字移動(dòng))。
3.中國(guó)是由56個(gè)民族組成的大家庭。中國(guó)使用漢字的人占絕大多數(shù),中文主要是漢語,但也包括其他少數(shù)民族的語言文字。海內(nèi)外華人使用的漢字有簡(jiǎn)體與繁體,日本語、朝鮮語中也有漢字。“中文平臺(tái)”和“中文化”是個(gè)很不確切的說法。而且中文平臺(tái)也解決不了在一個(gè)系統(tǒng)內(nèi)使用漢字、少數(shù)民族語言、日本和朝鮮的漢字問題.
4.POSIX是操作系統(tǒng)的一個(gè)標(biāo)準(zhǔn)。 Linux是符合POSIX標(biāo)準(zhǔn)的。而POSIX標(biāo)準(zhǔn)是采用國(guó)際化/本地化模式來解決多國(guó)語言文字的本地化。
 1999年8月底成立了Linux國(guó)際化工作組,開始了Linux國(guó)際化(縮寫為L(zhǎng)i18nux)工作,同時(shí)也為中文本地化指出了正確道路。在這之前搞中文平臺(tái),是因?yàn)槟菚r(shí)還沒有Linux國(guó)際化組織,也沒有Linux國(guó)際化標(biāo)準(zhǔn)。而且Linux是芬蘭人發(fā)明,在美國(guó)成長(zhǎng)起來的,開始也沒有想到它會(huì)如此成功,會(huì)走向世界,因此Linux以前也沒有考慮國(guó)際化的問題。Linux中文平臺(tái)對(duì)Linux在中國(guó)的發(fā)展和普及起了重要的作用,但它已完成了它的歷史使命。它只是一種暫時(shí)過渡的方法,是不得已而為之的方法,并不是中文Linux發(fā)展的正確之路。
二、Linux的國(guó)際化/本地化
國(guó)際化
(Internationalization,縮寫為I18n,即取首尾兩個(gè)字母,中間有18個(gè)字母)是規(guī)定在一個(gè)計(jì)算機(jī)程序內(nèi)部的能力,使它適應(yīng)不同的本地語言、本地風(fēng)俗和編碼字符集。
國(guó)際化標(biāo)準(zhǔn)定義一組國(guó)際化的應(yīng)用程序編程界面和用戶界面。
國(guó)際化主要包括用雙字節(jié)/多字節(jié)編碼代替單字節(jié)7位或8位編碼,使用統(tǒng)一的大字符集ISO 10646,建立本地化數(shù)據(jù)庫(kù)Locale DB,提供輸入、輸出服務(wù)(I/O服務(wù))等內(nèi)容。
1. 用雙字節(jié)/多字節(jié)編碼代替單字節(jié)7位或8位編碼
在國(guó)際化標(biāo)準(zhǔn)中,系統(tǒng)字處理中,必須以字符為單位,而不能以字節(jié)為單位。字符既可以是單字節(jié)字符,也可以是多字節(jié)字符,所以徹底解決了半個(gè)漢字現(xiàn)象。
 由于歷史的原因,計(jì)算機(jī)為了實(shí)現(xiàn)不同硬件和軟件系統(tǒng)之間數(shù)據(jù)傳輸?shù)臉?biāo)準(zhǔn)化,是使用7位編碼的,稱為ASCII(American standard code for information interchange)。ASCII是信息交換使用的美國(guó)國(guó)家標(biāo)準(zhǔn)編碼,它是美國(guó)的標(biāo)準(zhǔn)。ASCII字符集是用7個(gè)數(shù)據(jù)位表示的代碼,它用二進(jìn)制數(shù)值來表示ASCII字符,代碼值的范圍在0到127之間。大部分基于PC的系統(tǒng)則使用八個(gè)數(shù)據(jù)位的擴(kuò)展ASCII代碼。這樣可以使用額外的128個(gè)字符代表一些特殊符號(hào)、外語字符、圖形符號(hào)。
通信軟件的高位(第8位)是作為奇偶校驗(yàn)位,用來檢測(cè)和改正通信錯(cuò)誤。這種7位有效位的假定,滲透到很多軟件中,如電子郵件的實(shí)現(xiàn)。
隨著計(jì)算機(jī)應(yīng)用的不斷發(fā)展,7位編碼已不夠了。雖然以后又使用8位的擴(kuò)展ASCII碼,但256個(gè)字符即使對(duì)使用拼音文字的單文種的國(guó)家的用戶也是不敷使用了。雖然用了7位或8位能覆蓋基本字母,但還有多種多樣的符號(hào)及印刷元素,其數(shù)量遠(yuǎn)大于256。各國(guó)拼音文字的字母和各種符號(hào)就有一萬個(gè)左右,漢字則有七八萬之多,使用雙字節(jié)(16位)編碼,也只能標(biāo)識(shí)65536個(gè)符號(hào)。所以,如果想要計(jì)算機(jī)能使用多國(guó)文字,特別是使用漢字,則必須用雙字節(jié)/多字節(jié)。
如果說用兩位數(shù)表示年是計(jì)算機(jī)的千年蟲問題,那么用單字節(jié)編碼ASCII處理字符則是計(jì)算機(jī)文字處理的“千年蟲”問題。但單字節(jié)編碼的危害還沒有引起人們足夠的重視。
國(guó)際化的首要工作就是在系統(tǒng)字處理中,必須以字符為單位,而不是以字節(jié)為單位,即用雙字節(jié)/多字節(jié)編碼代替原來的單字節(jié)編碼,這就是用寬字符(wide character,為了統(tǒng)一地處理單字節(jié)字符和多字節(jié)字符,而采用統(tǒng)一編碼寬度的字符的內(nèi)部表示)代替單字節(jié)字符。
2.使用統(tǒng)一的大字符集ISO 10646
使用統(tǒng)一的多八位大字符集ISO 10646是國(guó)際化的關(guān)鍵工作,也是國(guó)際化的核心工作。十分遺憾的是很多人對(duì)其重要性認(rèn)識(shí)不足。
中國(guó)56個(gè)民族中使用漢字的人占絕大多數(shù),有本民族語言的少數(shù)民族有17個(gè)。這些民族的文字屬性及字量相差很大,目前對(duì)不同民族文字采用不同的編碼方式。在中國(guó)使用人數(shù)最多的少數(shù)民族文字有七種:蒙古文、藏文、維吾爾文、哈薩克文、朝鮮文、彝文和壯文。其中蒙古文、哈薩克文、朝鮮文還須考慮和使用這些文字的其它國(guó)家如蒙古國(guó)、哈薩克斯坦共和國(guó)、朝鮮和韓國(guó)使用的編碼一致。中文信息處理主要是漢字,但不只是漢字。它也應(yīng)該而且必須包括少數(shù)民族語言的文字處理這一重要組成部分。這對(duì)加強(qiáng)民族團(tuán)結(jié)、提高少數(shù)民族地區(qū)的經(jīng)濟(jì)、文化、科技發(fā)展,對(duì)于回?fù)敉鈬?guó)反華勢(shì)力攻擊中國(guó)不重視少數(shù)民族的謊言,都有十分重要的意義。為了在一個(gè)計(jì)算機(jī)系統(tǒng)內(nèi)同時(shí)處理漢字和多種少數(shù)民族文字,就必須使用既有漢字、又有各少數(shù)民族文字的統(tǒng)一大字符集。
海內(nèi)外華人使用的漢字有很大差異,這種差異不只是反映在簡(jiǎn)繁體和用詞的不同,更重要的是編碼和字符集不同,而要解決這個(gè)問題必須采用統(tǒng)一的大字符集。而且,國(guó)際化的要求也使得大字符集的使用更為迫切。
ISO 10646 信息技術(shù)通用多八位編碼字符集(Information technology-Universal Multiple-
octet Coded Character Set,縮寫為UCS)是國(guó)際標(biāo)準(zhǔn)化組織對(duì)全世界各國(guó)地區(qū)使用的書面語言文字及符號(hào)進(jìn)行統(tǒng)一編碼的編碼字符集的國(guó)際標(biāo)準(zhǔn)。已于1993年5月正式審定公布了ISO 10646.1。我國(guó)根據(jù)等同采用國(guó)際標(biāo)準(zhǔn)的原則,也于1993年12月宣布為國(guó)家標(biāo)準(zhǔn)GB13000.1。
目前,該標(biāo)準(zhǔn)已收入了各國(guó)現(xiàn)行標(biāo)準(zhǔn)的文字符號(hào)近六萬個(gè),可用于世界上多種語言的書面形式及附加符號(hào)的表示、輸入、顯示、存儲(chǔ)、處理、交換和傳輸。其中中文簡(jiǎn)繁體漢字、日文用漢字、朝鮮文用漢字(簡(jiǎn)稱CJK漢字)共20902個(gè)。
ISO 10646標(biāo)準(zhǔn)頒布后,又經(jīng)歷了一系列的修改與擴(kuò)充。經(jīng)過中、日、韓等國(guó)的不懈努力,目前CJK漢字?jǐn)U充集的6582個(gè)漢字、彝文和漢字結(jié)構(gòu)符、漢字部首與構(gòu)件編碼已納入BMP,蒙文和藏文編碼也取得重要進(jìn)展。目前正在制定輔助平面(可收入漢字的標(biāo)準(zhǔn),輔助平面2將納入CJK漢字?jǐn)U充集Extension B的四萬多漢字及Super CJK的六萬多漢字。
其實(shí),使用ISO 10646,中國(guó)是最大的受益國(guó)。但奇怪的是國(guó)外的公司為了軟件的國(guó)際化對(duì)ISO 10646十分積極,而我國(guó)的部分企業(yè)卻不重視。
但是國(guó)際化標(biāo)準(zhǔn)的制定進(jìn)展太慢,可能是對(duì)“地方”的積極性沒有發(fā)揮或發(fā)揮不夠。特別是UCS中最大量、最困難的工作是漢字部分。在制定UCS標(biāo)準(zhǔn)時(shí)應(yīng)充分重視中國(guó)的意見,并充分發(fā)揮中國(guó)的積極性。
在處理漢字字符集方面,考慮語言中的內(nèi)在關(guān)系,哪些字是常用、次常用,如何排序(按漢語拼音、筆劃、部首),如何尋求最佳方案等,最有研究、最有發(fā)言權(quán)的自然是中國(guó)人。當(dāng)然,海外華人和日本、朝鮮、韓國(guó)也都使用漢字,他們對(duì)漢字字符也很有研究,也要充分考慮他們的意見,但最大的用戶和市場(chǎng)是在中國(guó)。
國(guó)際化標(biāo)準(zhǔn)組織在漢字字符集中應(yīng)以中國(guó)的意見為重,另外如IBM、SUN等大公司對(duì)漢字本地化也有很多研究,對(duì)國(guó)際化做出很大貢獻(xiàn),也應(yīng)多和他們協(xié)商。
每個(gè)國(guó)家執(zhí)行的是本國(guó)的國(guó)家標(biāo)準(zhǔn),國(guó)際標(biāo)準(zhǔn)只有變?yōu)閲?guó)家標(biāo)準(zhǔn)時(shí)才能被該國(guó)執(zhí)行。國(guó)際標(biāo)準(zhǔn)是通過多國(guó)的國(guó)家標(biāo)準(zhǔn)來實(shí)現(xiàn)的。
國(guó)際化與本地化是一個(gè)辨證的關(guān)系。國(guó)際化是為了解決軟件能在各個(gè)使用不同語言、不同風(fēng)俗的國(guó)家和地區(qū)的編碼字符集都能使用的問題,而對(duì)計(jì)算機(jī)程序作出的某些規(guī)定。簡(jiǎn)言之,國(guó)際化正是為了解決本地化。另一方面,本地化是國(guó)際化向特定本地語言環(huán)境的轉(zhuǎn)換,本地化要適應(yīng)國(guó)際化的規(guī)定。
國(guó)際化標(biāo)準(zhǔn)組織要充分尊重各國(guó)標(biāo)準(zhǔn)化組織的意見。漢字共有七八萬個(gè),從碼位的占有率來看是絕大多數(shù),而且漢字又有簡(jiǎn)體、繁體、日文用漢字、朝鮮文用漢字、韓國(guó)用漢字,可謂是最復(fù)雜的。國(guó)際化工作中最大量、最復(fù)雜的工作就是解決漢字本地化的問題,如果漢字本地化解決好了,國(guó)際化的工作就完成了一大半。漢字本地化解決得好壞是衡量國(guó)際化工作好壞的試金石。全世界使用漢字的人最多,漢字又是聯(lián)合國(guó)使用的文字,解決好漢字本地化意義十分重大。國(guó)際化標(biāo)準(zhǔn)組織應(yīng)該格外重視中國(guó)標(biāo)準(zhǔn)化組織的意見,而不只是聽取各中文Linux廠商的意見。現(xiàn)在國(guó)際化組織的成果雖然已上網(wǎng),但與中國(guó)標(biāo)準(zhǔn)化組織機(jī)構(gòu)并未建立直接、暢通,有效的聯(lián)系渠道。
而且對(duì)中文(漢字)最了解的還是中國(guó)人自己。中文本地化離開中國(guó)人是搞不好的,國(guó)際化離開中國(guó)人也是搞不好的。
另一方面,中國(guó)的標(biāo)準(zhǔn)化組織也應(yīng)主動(dòng)和Linux國(guó)際化組織取得聯(lián)系,反映自己的意見,有問題和Linux國(guó)際化組織協(xié)商解決。
制定標(biāo)準(zhǔn)首先應(yīng)考慮促進(jìn)技術(shù)的發(fā)展,有利于整個(gè)行業(yè)的發(fā)展,而不僅僅是保護(hù)國(guó)內(nèi)廠家的利益。事實(shí)證明單靠制定GB是擋不住國(guó)外大公司的。
經(jīng)濟(jì)全球化,軟件國(guó)際化是趨勢(shì),Linux也正走向全球,走向國(guó)際化。
全球有四分之一的人使用中文,沒有中國(guó)的“全球化”是不可想象的,所以Linux需要中國(guó),而中國(guó)也需要Linux。解決好Linux的國(guó)際化和中文本地化對(duì)Linux的發(fā)展、對(duì)中國(guó)軟件行業(yè)都是十分重要的事,意義是十分深遠(yuǎn)的。我們應(yīng)抓住Linux機(jī)遇,從Linux的國(guó)際化和中文本地化突破,把軟件行業(yè)的國(guó)際化/中文本地化來一個(gè)比較徹底地解決。
這里有一個(gè)很重要的問題是對(duì)Unicode怎么看待和對(duì)關(guān)于字符集的國(guó)家標(biāo)準(zhǔn)(GB)如何與國(guó)際接軌而又充分體現(xiàn)對(duì)中文本地化最有利?
Unicode現(xiàn)在也是國(guó)際標(biāo)準(zhǔn)了,而不再只是幾家美國(guó)公司自己提的方案了。現(xiàn)在微軟的產(chǎn)品已支持Unicode ,還有SUN、IBM等大公司都支持Unicode 。
漢字不只是中國(guó)人民的寶貴文化遺產(chǎn),也是亞洲人民的寶貴遺產(chǎn),而且也是世界文明的共同財(cái)富。漢字在很多方面是優(yōu)于拼音文字的。如漢字能使人引起聯(lián)想,而聯(lián)想是一切發(fā)明之母,學(xué)習(xí)和使用漢字有利于大腦智力的開發(fā);使用漢字能以最小的篇幅表達(dá)最多的內(nèi)容;漢字具有美感等。
我國(guó)既然決定了要遵循國(guó)際化標(biāo)準(zhǔn)ISO 10646并發(fā)布了相應(yīng)的GB13000標(biāo)準(zhǔn)。共收錄了七八萬個(gè)漢字。是盡快過渡到UCS國(guó)際標(biāo)準(zhǔn)呢,還是緩慢過渡到UCS國(guó)際標(biāo)準(zhǔn)?我看還是盡快過渡好。因?yàn)槎嘁粋€(gè)過渡性的GB,就會(huì)多一批需轉(zhuǎn)換的大量文件,也就是多一個(gè)大包袱。而且BMP已收錄了兩萬七千多個(gè)漢字,能滿足絕大多數(shù)人的使用。
應(yīng)盡快采用國(guó)際標(biāo)準(zhǔn)的字符集和編碼方法,以后就只需逐漸補(bǔ)充字型(font)就行了。
關(guān)于字符集的標(biāo)準(zhǔn),有關(guān)部門應(yīng)把重點(diǎn)放在與國(guó)際標(biāo)準(zhǔn)有關(guān)組織建立聯(lián)系,把對(duì)漢字字符集、少數(shù)民族文字字符集和編碼的有關(guān)意見和他們溝通、協(xié)商,爭(zhēng)取在國(guó)際標(biāo)準(zhǔn)上反映出來。不要再搞新的字符集的GB了,以減少以后向國(guó)際化標(biāo)準(zhǔn)轉(zhuǎn)換時(shí)的包袱。
標(biāo)準(zhǔn)制定的重點(diǎn)應(yīng)放在應(yīng)用程序界面(API)的規(guī)范、標(biāo)準(zhǔn)的制定上。制定標(biāo)準(zhǔn)的一個(gè)重要作用就是促進(jìn)應(yīng)用程序的開發(fā)。十分遺憾的是這項(xiàng)工作進(jìn)展太緩慢了。為了加快進(jìn)度,最近中科院軟件所、紅旗軟件公司和一些關(guān)心API標(biāo)準(zhǔn)的人正在草擬一個(gè)標(biāo)準(zhǔn)初稿,準(zhǔn)備供大家討論、修改,以盡快拿出一個(gè)草稿供標(biāo)準(zhǔn)化組織討論。

熱詞搜索:

上一篇:構(gòu)筑穩(wěn)健的中文Linux(下)
下一篇:GPL的中文Postscript字型安裝、原理及使用

分享到:           收藏