另一方面,OpenAI 也對 Anthropic 的 Claude 模型進行了測試,重點評估了指令層級、越獄、幻覺和陰謀等方面。Claude 模型在指令層級測試中表現良好,並在幻覺測試中拒絕回答的比率較高,這意味著在不確定的情況下,它們不太可能提供錯誤的答案。
這一聯合評估的舉措引發業界關注,特別是在 OpenAI 被指控違反 Anthropic 的服務條款,導致後者撤銷 OpenAI 的 API 權限,並禁止其利用 Claude 模型改進競品的背景下。隨著越來越多的批評者和法律專家呼籲制定指導方針以保護用戶,尤其是未成年人,AI 工具的安全性問題愈發重要。這一合作反映了產業內在「競爭激烈但安全合作必要」的矛盾,旨在建立 AI 安全與對齊(alignment)領域的業界標準。