這些在地化資料就像 AI 的教材,幫助 AI 模型更了解台灣,學會更自然、更貼近台灣社會的語言表達能力。
數發部指出,先中央機關協作,將過去資料及新增資料納入以文字為主的語料庫。例如文化部上架的公共藝術與文化資產類型資料集,展現台灣豐富、多元的藝文風貌,可作為訓練 AI 模型認識台灣文化內容的重要素材;教育部提供的語言辭典資料涵蓋台語、客語等,有助於強化 AI 模型的用詞精準度與語意理解能力。明年起將與地方政府、民間單位合作擴充語料庫,並與國內外廠商對接、投入訓練與應用。
為了擴大政府資料開放與共享,並促進產業與民間資料運作,數發部推動的《促進資料創新利用發展條例》草案已送至行政院審議,後續將送立法院。數發部更與經濟部智財局推出 《臺灣主權 AI 訓練語料授權條款-第 1 版》,讓語料釋出有明確的授權依據,降低個別著作權商議所要付出的龐大行政成本,減少 AI 訓練資料可能產生的著作權爭議,藉由授權條款先行機制,全力加速主權 AI 的發展與應用。
資料與人才將是 AI 發展的護城河,數發部積極推動正體中文語料庫,未來也會朝多媒體如影像、圖像等資料形式發展,並在合作框架下,引導地方政府與民間單位參與起中。