SOGO論壇
標題:
馬斯克Grok幻覺率最低 AI可靠度研究奪冠
[列印本頁]
作者:
lionking0809
時間:
昨天 17:47
標題:
馬斯克Grok幻覺率最低 AI可靠度研究奪冠
一項於 2025 年 12 月公布的 AI 可靠度研究指出,全球首富馬斯克旗下的聊天機器人 Grok,在受測的 10 款主流 AI 模型中,幻覺率最低,僅 8%,被評為職場應用中可靠度表現佳的 AI 工具之一。
該研究由 Relum 進行,評估指標涵蓋幻覺率、使用者評分、回應一致性與系統停機率,並依整體表現給予 0 至 99 分的可靠度風險評分,分數越高代表風險越大。
研究結果顯示,Grok 幻覺率為 8%,使用者評分 4.5 分,一致性 3.5,停機率僅 0.07%,整體風險評分為 6 分。
DeepSeek 以 14% 幻覺率與零停機率排名其後。
相較之下,ChatGPT 幻覺率高達 35%,Google Gemini 為 38%,兩者在可靠度風險評分中名列後段,其中 ChatGPT 風險評分高達 99 分。
Relum 產品長 Razvan-Lucian Haiduc 指出,目前約 65% 的美國企業已在日常工作中使用 AI 聊天機器人,且近半數員工曾向 AI 工具分享公司相關資訊,顯示 AI 在職場中的角色日益關鍵。
Haiduc 強調,企業在選擇 AI 工具時,應以可靠度與實際業務需求為優先考量,而非僅看市場知名度。
研究指出,Grok 雖然整體使用率不及部分主流 AI 應用,但其低幻覺率使其在高度重視準確性的應用場景中,具備明顯優勢,也凸顯 AI 聊天機器人在「普及度」與「實際表現」之間仍存在落差。
幻覺率最低的 AI 工具 Grok 獲五角大廈青睞
xAI 週一已宣布與美國國防部達成合作協議,將旗下 Grok 系列人工智慧模型部署至軍方內部的生成式 AI 平台 GenAI.mil,供軍事與文職人員使用。
根據五角大廈說法,Grok AI 將直接整合進 GenAI.mil 系統,首波部署預計於 2026 年初展開。
GenAI.mil 為國防部內部使用的 AI 平台,設計目的在於於高度安全的政府雲端環境中,提供軍方與文職人員使用生成式 AI 工具。
xAI 表示,該平台將讓約 300 萬名國防部軍事與文職員工,在 Impact Level 5(IL5) 等級的雲端安全環境中存取 xAI 技術。IL5 為高安全等級標準,允許系統在日常作業中處理「受控但未分類資訊」。
除 Grok 的核心 AI 能力外,國防部指出,使用者亦可取得來自 X 平台的即時全球資訊,以強化情資掌握與決策效率,為相關人員提供即時資訊優勢。
此次合作延續 xAI 今年 7 月推出的「xAI for Government」計畫,該產品線聚焦聯邦、州與地方政府,以及國家安全相關單位。
此前,xAI 亦與 OpenAI、Alphabet 旗下 Google 及 Anthropic 一同獲得最高達 2 億美元的政府合約,用於支援國安領域 AI 能力的擴展。
相關合約主要用於推動具代理能力的人工智慧系統發展,並由國防部首席數位與人工智慧辦公室支持。市場消息指出,xAI 目前正尋求以約 2,300 億美元估值,進行新一輪募資。
錄自:鉅亨網
歡迎光臨 SOGO論壇 (https://oursogo.com/)
Powered by OURSOGO.COM