BIG5 Extension 計畫(1)
by Kii Ali
■聲明
文中提到「Unicode 補完計畫」相當多次,但並無任何不敬之意。
相對的,如非得窺他的修改想法,本文即無由成形。我只不過站
在他打破的迷思上,再向前推進罷了。該網站如下。
http://student.thu.edu.tw/~s892941/japan/我們兩者的重點也不同,他著重在日文字母,也打算碰一點日本漢字
,工程也比較小。而我則主攻簡體中文,對於日文字母和日本漢字,
則順道解決。之所以取名 Extension ,是相對於 GB2312 與 GBK
extension 而來。在擴增的想法上,固然是很相當。但顯然不是把
東西裝上四個輪子,就可以叫做車子。
我希望能成功地,猜對他的想法。如下。
■緣起和廢話
這是 2002年11月左右,對中國大陸福建省福州市的「炎之川」所提
到的內容。
======
這一點,在大陸的 GBK 的擴編已經納入繁體字的範圍,所以 unicode
或 utf-8 都可以看到。而 BIG5 本身並沒有規範簡體字的位置,所
以硬要在 BIG5 出現簡體字,都是各家的造字,Unicode 完全不承
認,這很麻煩。
簡單說好了,你們在 IE 裡面複製下來的文字,可以是正確的 編碼,
即是是繁體字,也可以在簡體中文的操作系統正常顯示。我們在 IE
裡面複製到的簡體字,在 ANSI 環境之下就一定會變成 ? 問號。
應該看得懂我在說什麼吧。呃,這是 BIG5 會被消滅的隱憂。它的確
是不夠健全的系統。不過 GBK 也早晚會被 Unicode 合併掉,所以結
果一樣。 (苦笑)
======
記得 2003 年過年前,我深夜打電話給 IC ,想把這個疑惑說明。
福至心靈的想到不是有個什麼「Unicode 補完計畫」,於是我們在
電話談了一小時,把女朋友冷落到氣得自己去睡覺,把「補完計畫
」給安裝起來。電腦被女朋友鎖起來踼回新莊家中,只好在腦袋空
想,感謝 IC 能忍受我天花亂墜一堆 ANSI vs unicode 的 mapping
table 的觀念。
IC 被我催眠的腦袋模糊,我不曉得他在電話的那一頭是不是有睡
著。不過安裝完後,「咦,我的自然注音輸入法,居然出現日文
字了,本來都是一堆空白說。」同時 IC 也監測到,「補完計畫」
去偷偷改掉了 c_950.nls 這個檔案。
■想法
1.unicode 可以用來在網路通訊。凡是在 unicode 上可以傳送的,
對方收到,一定可以看到正確訊息。不管對方有沒有安裝相應
的系統皆然。
2.「補完計畫」把當年倚天中文,增列在 BIG5 當中的日文字,
順利對應到 unicode 顯示。無論在 BBS 的傳送或是 IE 上的
轉貼皆然。當然,沒有補完的地方,還是 ??? 一堆問號。
3.以下:
BIG5 的現有編碼範圍。當然這部分的編碼範圍,也包括前面
所提到「倚天中文增列日文字」部分。
BIG5 (原): A140 - F97E , A1A1 - F9FE
如果我們把「可用造字區」和「可用顯示」部分,填入簡體字,
使它取得一個 BIG5 編碼,並跟 unicode 對應。也就是整個
BIG5 擴增如下:
BIG5 (現): 8240 - FE7E , 82A0 - FEFE
那麼,所有日文字母、日文漢字、簡體字,只要是漢字的範圍,
所引起 ??? 問號剪貼的問題,全部都會消失。
因此,自然也不會有下面這種問題。
---------
有些網站告訴我,因為台灣的 BIG-5 碼跟日本的 ShiftJIS 碼是不
一樣的,內碼是不一樣的,當然輸入法不一樣也是正常的……
可是有些漢字好像沒有問題阿@_@? 可是奇怪的是,我在日本網
站留言的時候,如果用注音輸入法打中文,可以成功的留言耶!?
而且很奇怪的是,如果我把日本網站的文章複製,後來在BBS裡貼
上,所有的假名都變成 ???? ,可是有一些漢字卻留下來了!?
---------
■如何處理
文言文:
1.修改 Win 2k/xp 當中的 ANSI (code page 950) vs unicode 的
mapping table 。
白話文:
1.台灣的 BIG5 的擴編範圍,完整納入簡體中文、常用造字和
日文字母、日文漢字的範圍,成為 BIG5 extension。
2.並且讓 unicode 承認,以便在網路上傳送資訊。
■有什麼效果?
1.可以直接在 ICQ2002 ,或是微軟的 office 系列,(支援
unicode 版本),直接輸入簡體中文和日文,對方一定都看
得到 (不管他有沒有安裝 BIG5 extension 均可)。
2.可以在 ICQ 舊版/ UltraEdit / 一般 BBS (支援 ansi) ,直接
輸入簡體中文和日文。
2.1 如果對方有安裝「補完計畫」,只能看到日文。
2.2 如果對方安裝 BIG5 extension ,可以全部看到。
2.3 即使對方安裝「中國海字型」造字,還是可以全部看到。
3.直接複製簡體中文網站的內容,到 ICQ 或 UltraEdit
底下,再不會出現 ??? 一堆問號。
4.使用 GoSurf / MyIE / NetCaptor 等外掛瀏覽器,在繁體中文
作業系統看簡體中文的網頁時,「標題」再不會出現 ??? 一堆
問號。
5.跟大陸網友對話,把 ICQ 2002 的對話內容複製下來到 Ultra
Edit ,再不會出現 ??? 一堆問號,而會是標準的簡體中文,
任你刪改和儲存。
6.就是你要寫「游鍚坤」,也不用再寫「游鍚方方土」,或是在
生物學上為「酉每」這個字寫不出來,而大傷腦筋。因為本來
就有這個字。
7.更重要的,以前常常莫名其妙出來的問號問題,不管是檔案名稱,
或是一般文字,預期幾乎看不到了。
8.最重要的,此時你的系統已經配備完整的繁體簡體中文能力,
不用再辛苦的切換系統到簡體。如果用標準注音,輸入法
也不用再外掛,因為本來就支援。
再也不是被閹割的 BIG5 作業系統。
如果你知道大陸在瀏覽繁體中文網頁,或是改變檔案名稱,
絕少碰到這種 ??? 一堆問號,相信你會很有這種感覺。
如果還願意使用華康出版的 Unicode 字型,那就真的是一點
限制也沒有。 (同樣是華康出品,「新細明體」比起大陸「宋
體」,還是被閹割了不少字)。
■有別人有什麼不同?
1.與「補完計畫」比較
補完計畫目前只支援到倚天造字中的日文字母。其他的簡體漢字,
一概沒有支援。在 unicode/ansi 程式之前互貼,還是再度會出現
??? 一堆問號。
2.與「中國海字集」比較
支援得很澈底,但使用的人不多。但是只能在 ANSI 底下使用。
如果拿來傳送,通常別人看不到居多。
3.與「香港政府字集」比較
香港政府的造字,會一併在這個計畫裡面解決。會讓原本沒有
unicode 和 big5 對應的香港字,取得正確對應。
4.與「臺灣中推會 BIG5+」比較
他們也是造字集,自然會有不支援 unicode 的問題。而且我個
人比較懷疑,這個造字集有多少人使用?
■計畫進度/限制
很抱歉,這才是計畫而已,還沒有可供下載的成品。如果有,我
一定會擺在自己的每個中文化作品裡面,讓所有人強迫中獎
而且,這個檔案壓縮後大小只有 90-110K 左右。是的,就這麼小。
1.這是我答應 IC 要寫出來的東西。如果 IC 也看不懂,哇,那 KA
要進下一步就很難了。
2.簡體中文,就算只考慮 GB2312 的範圍 (不考慮 GBK extension)
,要把它對應到 BIG5 ,其實遠遠超過中文化作者所能負荷的範
圍。事實上,這根本不是中文化的事情,卻跟系統牢牢相關。
是的,不太多,大概一萬字左右。扣掉與 BIG5 同樣 unicode 範
圍的字,最少也要有四五千字的簡體字吧。再加上一些零零星星
的日文字母和日本漢字、常用造字、香港字...
這真像是制定標準。這是最困難的地方。
我是有一些想法,或許可做,但還不是非常成熟。應該是可以做
到才是。力氣是確定要花下去的。
3.BIG5 extension ,簡體字的 ANSI 編碼,初步要以誰為準?我
以為是「中國海字集」,畢竟當初它的確定義過簡體字的範圍,
雖然用過的人實在不多。
因為其他各家,完全不考慮簡體字在 BIG5 當中顯示的可能。
自然沒得參考。只是這樣指定頗有爭議。
4.BIG5 extension 的範圍,能不能把塞入這麼多的簡體字,有一些
疑問。會有取捨的問題。
■可行性
不曉得可行性如何?與任何批評。還希望您的意見。