SOGO論壇
  登入   註冊   找回密碼
查看: 2695|回覆: 0
列印 上一主題 下一主題

[AI 應用] 【科技新報】AI 訓練不靠「侵權」也能創新,最新研究推翻產業迷思 [複製連結]

Rank: 10Rank: 10Rank: 10

狀態︰ 離線
跳轉到指定樓層
1
發表於 2025-6-7 22:37:15 |只看該作者 |倒序瀏覽 | x 1
在人工智慧(AI)領域,許多公司聲稱其工具無法在不使用受版權保護的內容的情況下存在。然而,最近的一項研究顯示,這種說法並不完全正確。研究人員成功訓練了一個新的大型語言模型(LLM),該模型的資料集僅使用公共領域和開放授權的內容,雖然這個模型的效能不如當前的先進模型,但其道德性卻得到提升。

 

這項研究由14個不同機構的學者合作完成,包括麻省理工學院、卡內基美隆大學和多倫多大學等知名學府,以及非營利組織如Vector Institute和Allen Institute for AI。研究團隊建立了一個8TB的「道德來源」資料集,其中包括來自美國國會圖書館的13萬本書籍。經過資料輸入後,他們訓練了一個擁有70億參數的LLM,結果顯示其性能與2023年Meta推出的Llama 2-7B相當。

儘管這個模型的性能與兩年前的模型相當,但其訓練過程卻相當艱辛。由於許多資料無法被機器讀取,研究人員不得不依賴人工篩選。共同作者斯特拉·比德曼(Stella Biderman)表示:「我們使用自動化工具,但最終所有的資料都需要人工標註和審查,這真的很困難。」此外,確定每個擷取網站的授權細節也增加了訓練的難度。

這項研究的結果挑戰了AI公司的一個常見論點。2024年,OpenAI在英國國會的一次聽證會上表示,這樣的模型幾乎不可能存在,並聲稱「今天的領先AI模型,無法在未使用受版權保護資料的情況下進行訓練」。去年,Anthropic的一位專家證人也表示,如果AI公司需要為其訓練資料集中的作品獲得授權,LLM可能根本不會存在。

儘管這項研究不太可能改變AI公司的發展方向,但它至少反駁了業界的論點。未來在法律案件和監管討論中,這項研究的結果可能會再次被提及。
已有 1 人評分SOGO幣 收起 理由
smartlion + 10 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 10   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊


本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2025-7-23 16:31

© 2004-2025 SOGO論壇 OURSOGO.COM
回頂部