- 註冊時間
- 2020-7-2
- 最後登錄
- 2025-10-19
- 主題
- 查看
- 積分
- 1139
- 閱讀權限
- 110
- 文章
- 629
- 相冊
- 2
- 日誌
- 1
   
狀態︰
離線
|
蘋果公司於 14 日發表一項新研究,介紹一種名為 FS-DFM(Few-Step Discrete Flow-Matching)的語言模型。該模型能夠以驚人的速度生成長文本,速度比現有的對手快 128 倍。這項研究由蘋果和俄亥俄州立大學的研究人員,包括 Amin Karimi Monsefi 和 Nikhil Bhendawade 等人聯合進行。
傳統的語言模型,如ChatGPT,屬於自回歸模型,這類模型是逐字生成文本,依賴用戶的提示和之前生成的所有字元。相對而言,擴散模型則能夠並行生成多個字元,並透過多次迭代來精煉文本,最終形成完整的回應。
FS-DFM模型的創新之處在於,其能夠在僅需八次快速的精煉迭代中生成完整的段落,這個過程的質量與需要超過一千步的擴散模型相當。研究人員採取了三個步驟來實現這個目標:首先,訓練模型以處理不同的精煉迭代預算;其次,使用一個指導性「教師」模型來幫助其在每次迭代中進行更大且更準確的更新;最後,調整每次迭代的運作方式,使模型能夠以更少且更穩定的步驟達到最終結果。
在與擁有70億和80億參數的Dream擴散模型及LLaDA擴散模型的比較中,FS-DFM在困惑度和熵這兩個重要指標上表現出色。困惑度是衡量語言模型文本品質的標準指標,數值越低、文本的準確性和自然度越高;而熵則衡量模型選擇每個單詞的信心程度。研究顯示,FS-DFM在所有迭代次數中均能保持較低的困惑度和穩定的熵。
考慮到這些結果及其潛力,研究人員計劃發布代碼和模型檢查點,以促進可重複性和進一步的研究。對於想深入了解蘋果方法及其模型具體實施細節的讀者,可以參考發表在arXiv上的完整論文,該論文中包含多個性能示例,並以顏色標記每個單詞最後更改的迭代次數。
錄自:科技新報
|
-
總評分: SOGO幣 + 10
查看全部評分
|