蘋果研究團隊最新發表的一項研究指出,大型語言模型(LLM)在檢查自身工作時,若導入檢查清單式的回饋機制,能顯著提升表現。這項研究不僅挑戰了傳統強化學習方法的主流做法,也為未來 AI 助手的可靠性開啟新方向。
早先在 LLM 完成訓練後,研究人員通常會透過「來自人類回饋的強化學習」(Reinforcement Learning from Human Feedback,RLHF)進一步提升模型品質。這種方式仰賴人工標註者對模型回覆給予正向或負向評價,讓模型逐步學會何種答案最能獲得肯定。然而 RLHF 仍存在被模型「投機取巧」的風險,例如產生表面正確卻未真正解決問題的輸出。