SOGO論壇
  登入   註冊   找回密碼
查看: 1062|回覆: 1
列印 上一主題 下一主題

[轉貼管理] [內碼管理] 現代文字工作者必須知道的 UTF-8 [複製連結]

Rank: 12Rank: 12Rank: 12

原創及親傳圖影片高手勳章 熱心參予論壇活動及用心回覆主題勳章 經典文章之星勳章 環瀛達人勳章

狀態︰ 離線
跳轉到指定樓層
1
發表於 2010-4-3 06:39:10 |只看該作者 |倒序瀏覽
這一陣子研究電子書問題,發現台灣出版業內能供應的電子書單很少。原因除了各種結構性理由之外,還有個讓人傻眼的技術問題,那就是大五碼( Big-5 碼)的遺害。

過去在早期的 Dos、Windows 時代,台灣電腦界為了讓中文電腦能夠用中文溝通,業界參照教育部的常用、次常用字表,自行定義了業內通行的 13060 字中文內碼,通稱為「Big-5 碼」。然而教育部的字表考慮的是一般語文傳播,卻漏掉了許多人名、科學術語使用的罕用字,帶著那些字的專有名詞一旦走紅,罕用字立刻會變成常見字。

例如王建「煊」、游錫「堃」、青「邨」、大「麯」、消化「酶」等字。多年前我做百科的時代,第一次聽到電腦裡面沒有「酶」這個字的時候,我的驚訝至今記憶猶新。「酶」在科學類書裡實在太常見了,而每次出現我們都沒有別的辦法,只能個別造字。

大五碼的缺點雖然明顯,但不幸的是使用大五碼的中文系統(國喬、倚天)卻很成功,甚至微軟推出視窗中文版時,也不得不跟進採用大五碼。結果是所有興高采烈使用電腦的文字工作者長期被制約,認定有許多罕用字是電腦打不出來的。而不知道電腦環境在這幾年已經有重大改變。

這幾年新推出的作業系統、文書處理程式、輸入法、瀏覽器和中文網站,百分之九十九都直接支援萬國碼,尤其是 UTF-8 編碼格式,在英文以外的網頁上,UTF-8 編碼幾乎有一統江湖的味道了,但了解這個大變化的文字工作者,包括作者、譯者、編輯、排版美編,卻非常稀少。

至少有五成的人仍然使用舊系統,或者舊文書處理程式,而其他已經使用新系統或程式的人,也極少人知道他們已經可以打出幾乎所有罕用字了。作譯者不知情,編輯不知情,美編也不知情,所以到現在你還是可以在網上看見「方方土」「火宣」「酉每」「吉吉」等拆字法的拼字。

現在出版的新書如果還需要造字的話,幾乎可以肯定其中有九成都是不必要的,因為你已經可以直接打出那些字,不需要重新造字。除了 Word 2007以前的版本還不支援萬國碼以外,你在這兩、三年購買的電腦,從作業系統、字型、輸入法到瀏覽器,絕大部分都已經支援 UTF-8 編碼了。

這就是現代文字工作者必須知道的 UTF-8,你不用知道太多,只要知道 UTF-8 已經解決了很多罕用字問題,就行了。

身為一個文字工作者,你得像古代的文人一樣,知道一點寫作技術和好用的工具。古人要知道的是什麼筆好寫,什麼紙好用,什麼硯台容易發墨,而現代作者最好也應該知道一點 UTF-8(和 CSS,和 html)。

最後介紹一下中推會的全字庫。那裡有很棒的注音、筆畫、部首查字介面,如果你有任何罕用字一時打不出來的話,全字庫的複合查詢還挺好用的,把那個字找出來,你的配合美編就省下了造字的工夫,而你的電子檔也免除了未來轉檔轉出亂碼、怪字的困擾。
喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

Rank: 11Rank: 11Rank: 11Rank: 11

狀態︰ 離線
2
發表於 2010-4-3 11:28:15 |只看該作者
如果不是讀到這一篇文還真的不知道原來有這樣的過程。
感謝您的分享。
請注意︰利用多帳號發表自問自答的業配文置入性行銷廣告者,將直接禁訪或刪除帳號及全部文章!
您需要登錄後才可以回覆 登入 | 註冊


本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2024-11-20 18:46

© 2004-2024 SOGO論壇 OURSOGO.COM
回頂部