[AI 應用] 【科技新報】AI 訓練不靠「侵權」也能創新，最新研究推翻產業迷思 [複製連結]

landrover1211

天使長(十級)

Rank: 13

狀態︰離線

電梯直達

1樓

發表於 2025-6-7 22:37:15 |只看該作者 |倒序瀏覽 | 被感謝次數

x 1

在人工智慧（AI）領域，許多公司聲稱其工具無法在不使用受版權保護的內容的情況下存在。然而，最近的一項研究顯示，這種說法並不完全正確。研究人員成功訓練了一個新的大型語言模型（LLM），該模型的資料集僅使用公共領域和開放授權的內容，雖然這個模型的效能不如當前的先進模型，但其道德性卻得到提升。

這項研究由14個不同機構的學者合作完成，包括麻省理工學院、卡內基美隆大學和多倫多大學等知名學府，以及非營利組織如Vector Institute和Allen Institute for AI。研究團隊建立了一個8TB的「道德來源」資料集，其中包括來自美國國會圖書館的13萬本書籍。經過資料輸入後，他們訓練了一個擁有70億參數的LLM，結果顯示其性能與2023年Meta推出的Llama 2-7B相當。

儘管這個模型的性能與兩年前的模型相當，但其訓練過程卻相當艱辛。由於許多資料無法被機器讀取，研究人員不得不依賴人工篩選。共同作者斯特拉·比德曼（Stella Biderman）表示：「我們使用自動化工具，但最終所有的資料都需要人工標註和審查，這真的很困難。」此外，確定每個擷取網站的授權細節也增加了訓練的難度。

這項研究的結果挑戰了AI公司的一個常見論點。2024年，OpenAI在英國國會的一次聽證會上表示，這樣的模型幾乎不可能存在，並聲稱「今天的領先AI模型，無法在未使用受版權保護資料的情況下進行訓練」。去年，Anthropic的一位專家證人也表示，如果AI公司需要為其訓練資料集中的作品獲得授權，LLM可能根本不會存在。

儘管這項研究不太可能改變AI公司的發展方向，但它至少反駁了業界的論點。未來在法律案件和監管討論中，這項研究的結果可能會再次被提及。

已有 1 人評分	SOGO幣	收起理由
smartlion	+ 10	您發表的文章內容豐富，無私分享造福眾人，.

總評分: SOGO幣 + 10 查看全部評分

喜歡嗎？分享這篇文章給親朋好友︰

檢舉

返回列表

本論壇為非營利自由討論平台，所有個人言論不代表本站立場。文章內容如有涉及侵權，請通知管理人員，將立即刪除相關文章資料。侵權申訴或移除要求：abuse@oursogo.com
GMT+8, 2026-7-2 03:06	手機版\|SOGO論壇

	品味生活\|休閒天地\|興趣嗜好\|學術藝文\|女性頻道\|電腦數位\|遊戲天堂\|影視音樂\|宗教綜合\|綜合圖片\|綜合影片\|成人園地
	© 2004-2026 SOGO論壇 OURSOGO.COM

[AI 應用] 【科技新報】AI 訓練不靠「侵權」也能創新，最新研究推翻產業迷思 [複製連結]

瀏覽過的版塊