SOGO論壇

標題: [內碼管理] 現代文字工作者必須知道的 UTF-8 [列印本頁]

作者: eee000    時間: 2010-4-3 06:39:10     標題: [內碼管理] 現代文字工作者必須知道的 UTF-8

這一陣子研究電子書問題,發現台灣出版業內能供應的電子書單很少。原因除了各種結構性理由之外,還有個讓人傻眼的技術問題,那就是大五碼( Big-5 碼)的遺害。

過去在早期的 Dos、Windows 時代,台灣電腦界為了讓中文電腦能夠用中文溝通,業界參照教育部的常用、次常用字表,自行定義了業內通行的 13060 字中文內碼,通稱為「Big-5 碼」。然而教育部的字表考慮的是一般語文傳播,卻漏掉了許多人名、科學術語使用的罕用字,帶著那些字的專有名詞一旦走紅,罕用字立刻會變成常見字。

例如王建「煊」、游錫「堃」、青「邨」、大「麯」、消化「酶」等字。多年前我做百科的時代,第一次聽到電腦裡面沒有「酶」這個字的時候,我的驚訝至今記憶猶新。「酶」在科學類書裡實在太常見了,而每次出現我們都沒有別的辦法,只能個別造字。

大五碼的缺點雖然明顯,但不幸的是使用大五碼的中文系統(國喬、倚天)卻很成功,甚至微軟推出視窗中文版時,也不得不跟進採用大五碼。結果是所有興高采烈使用電腦的文字工作者長期被制約,認定有許多罕用字是電腦打不出來的。而不知道電腦環境在這幾年已經有重大改變。

這幾年新推出的作業系統、文書處理程式、輸入法、瀏覽器和中文網站,百分之九十九都直接支援萬國碼,尤其是 UTF-8 編碼格式,在英文以外的網頁上,UTF-8 編碼幾乎有一統江湖的味道了,但了解這個大變化的文字工作者,包括作者、譯者、編輯、排版美編,卻非常稀少。

至少有五成的人仍然使用舊系統,或者舊文書處理程式,而其他已經使用新系統或程式的人,也極少人知道他們已經可以打出幾乎所有罕用字了。作譯者不知情,編輯不知情,美編也不知情,所以到現在你還是可以在網上看見「方方土」「火宣」「酉每」「吉吉」等拆字法的拼字。

現在出版的新書如果還需要造字的話,幾乎可以肯定其中有九成都是不必要的,因為你已經可以直接打出那些字,不需要重新造字。除了 Word 2007以前的版本還不支援萬國碼以外,你在這兩、三年購買的電腦,從作業系統、字型、輸入法到瀏覽器,絕大部分都已經支援 UTF-8 編碼了。

這就是現代文字工作者必須知道的 UTF-8,你不用知道太多,只要知道 UTF-8 已經解決了很多罕用字問題,就行了。

身為一個文字工作者,你得像古代的文人一樣,知道一點寫作技術和好用的工具。古人要知道的是什麼筆好寫,什麼紙好用,什麼硯台容易發墨,而現代作者最好也應該知道一點 UTF-8(和 CSS,和 html)。

最後介紹一下中推會的全字庫。那裡有很棒的注音、筆畫、部首查字介面,如果你有任何罕用字一時打不出來的話,全字庫的複合查詢還挺好用的,把那個字找出來,你的配合美編就省下了造字的工夫,而你的電子檔也免除了未來轉檔轉出亂碼、怪字的困擾。
作者: predocjean    時間: 2010-4-3 11:28:15

如果不是讀到這一篇文還真的不知道原來有這樣的過程。
感謝您的分享。




歡迎光臨 SOGO論壇 (https://oursogo.com/) Powered by OURSOGO.COM