不過,研究作者也坦言,這項測試未必能完全重現真實使用情境,因為 AI 公司握有大量使用者互動資料,卻很少向學界公開。美國紐約城市大學心理學博士生 Luke Nicholls 則認為,這項研究足以做為「溫暖可能以準確度為代價」的證據,但未必能推論到所有模型與訓練方法。他提醒,若一個模型既過度親切又不夠準確,或持續強化使用者既有信念,風險就可能被放大。
研究背後更大的問題,則是友善語氣如何改變人們對 AI 的依附與信任。Ibrahim 表示,即使模型層面的行為調整成功,AI 對人們心理與人際認知的影響仍然「非常不清楚」,這也是未來必須補上的關鍵缺口。