標題: Google 新模型釋出,AI 模仿人類使用瀏覽器、填寫表單 [列印本頁] 作者: 天龍 時間: 2025-10-9 18:05:58 標題: Google 新模型釋出,AI 模仿人類使用瀏覽器、填寫表單
Google 推出 Gemini 2.5 Computer Use 模型,以 Gemini 2.5 Pro 的視覺理解和推理能力為基礎所開發的專用模型,可支援代理程式在原本為人類設計的網路介面上進行操作,目前透過 Gemini API 提供預覽版本。
儘管 AI 模型可以透過結構化 API 與軟體互動、完成指令,但許多任務仍需要與圖形使用者介面互動,例如填寫表單並送出。要完成這樣的任務,代理程式必須像人類一樣瀏覽網站或應用程式,過程中有點擊、輸入等動作。對於打造強大且通用的代理程式而言,能夠做到填寫表單、操作下拉選單與篩選器等互動元素,並在需要身分登入的情況下進行操作,是關鍵的一步。
於是 Gemini 2.5 Computer Use 模型為此而生,它的核心能力透過 Gemini API 新增的「computer_use」工具公開,並在一個迴圈內運行,該工具的輸入在於使用者請求、環境的截圖以及近期操作的歷史紀錄。這款模型可用於網路介面測試,或在無 API 或其他直接連接的情況下操作僅供人類使用的網路介面。