- 註冊時間
- 2025-1-27
- 最後登錄
- 2025-10-31
- 主題
- 查看
- 積分
- 896
- 閱讀權限
- 100
- 文章
- 476
- 相冊
- 1
- 日誌
- 0
  
狀態︰
離線
|
Google 推出 Gemini 2.5 Computer Use 模型,以 Gemini 2.5 Pro 的視覺理解和推理能力為基礎所開發的專用模型,可支援代理程式在原本為人類設計的網路介面上進行操作,目前透過 Gemini API 提供預覽版本。
儘管 AI 模型可以透過結構化 API 與軟體互動、完成指令,但許多任務仍需要與圖形使用者介面互動,例如填寫表單並送出。要完成這樣的任務,代理程式必須像人類一樣瀏覽網站或應用程式,過程中有點擊、輸入等動作。對於打造強大且通用的代理程式而言,能夠做到填寫表單、操作下拉選單與篩選器等互動元素,並在需要身分登入的情況下進行操作,是關鍵的一步。
於是 Gemini 2.5 Computer Use 模型為此而生,它的核心能力透過 Gemini API 新增的「computer_use」工具公開,並在一個迴圈內運行,該工具的輸入在於使用者請求、環境的截圖以及近期操作的歷史紀錄。這款模型可用於網路介面測試,或在無 API 或其他直接連接的情況下操作僅供人類使用的網路介面。
Gemini 2.5 Computer Use 模型推出時間點恰好碰上 OpenAI 開發者大會,而 OpenAI 已打造一套自主代理系統 ChatGPT Agent,另一競爭對手 Anthropic 去年已釋出具備 computer use 功能的 Claude 模型版本,看來都走上開發通用代理程式的必經之路。
但與 OpenAI、Anthropic 做法不同的是,Google 的 Gemini 2.5 Computer Use 模型只能存取瀏覽器,而非整個電腦使用環境。Google 指出這款模型目前尚未最佳化至桌面作業系統層級的控制,僅支援 13 種瀏覽器操作,包括開啟瀏覽器、輸入文字等。Google 還強調,這款模型在多項 Web 和行動控制的基準測試展現強大性能。
錄自:科技新報
|
-
總評分: SOGO幣 + 10
查看全部評分
|