SOGO論壇
  登入   註冊   找回密碼
查看: 3419|回覆: 0
列印 上一主題 下一主題

[AI 應用] Google 新模型釋出,AI 模仿人類使用瀏覽器、填寫表單 [複製連結]

Rank: 10Rank: 10Rank: 10

狀態︰ 離線
跳轉到指定樓層
1
發表於 2025-10-9 18:05:58 |只看該作者 |倒序瀏覽 | x 1
Google 推出 Gemini 2.5 Computer Use 模型,以 Gemini 2.5 Pro 的視覺理解和推理能力為基礎所開發的專用模型,可支援代理程式在原本為人類設計的網路介面上進行操作,目前透過 Gemini API 提供預覽版本。

儘管 AI 模型可以透過結構化 API 與軟體互動、完成指令,但許多任務仍需要與圖形使用者介面互動,例如填寫表單並送出。要完成這樣的任務,代理程式必須像人類一樣瀏覽網站或應用程式,過程中有點擊、輸入等動作。對於打造強大且通用的代理程式而言,能夠做到填寫表單、操作下拉選單與篩選器等互動元素,並在需要身分登入的情況下進行操作,是關鍵的一步。

於是 Gemini 2.5 Computer Use 模型為此而生,它的核心能力透過 Gemini API 新增的「computer_use」工具公開,並在一個迴圈內運行,該工具的輸入在於使用者請求、環境的截圖以及近期操作的歷史紀錄。這款模型可用於網路介面測試,或在無 API 或其他直接連接的情況下操作僅供人類使用的網路介面。



Gemini 2.5 Computer Use 模型推出時間點恰好碰上 OpenAI 開發者大會,而 OpenAI 已打造一套自主代理系統 ChatGPT Agent,另一競爭對手 Anthropic 去年已釋出具備 computer use 功能的 Claude 模型版本,看來都走上開發通用代理程式的必經之路。

但與 OpenAI、Anthropic 做法不同的是,Google 的 Gemini 2.5 Computer Use 模型只能存取瀏覽器,而非整個電腦使用環境。Google 指出這款模型目前尚未最佳化至桌面作業系統層級的控制,僅支援 13 種瀏覽器操作,包括開啟瀏覽器、輸入文字等。Google 還強調,這款模型在多項 Web 和行動控制的基準測試展現強大性能。

錄自:科技新報
已有 1 人評分SOGO幣 收起 理由
smartlion + 10 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 10   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊


本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2025-11-3 21:23

© 2004-2025 SOGO論壇 OURSOGO.COM
回頂部