[AI 應用] Google 新模型釋出，AI 模仿人類使用瀏覽器、填寫表單 [複製連結]

天龍

座天使(七級)

Rank: 10

狀態︰離線

電梯直達

1樓

發表於 2025-10-9 18:05:58 |只看該作者 |倒序瀏覽 | 被感謝次數

x 1

Google 推出 Gemini 2.5 Computer Use 模型，以 Gemini 2.5 Pro 的視覺理解和推理能力為基礎所開發的專用模型，可支援代理程式在原本為人類設計的網路介面上進行操作，目前透過 Gemini API 提供預覽版本。

儘管 AI 模型可以透過結構化 API 與軟體互動、完成指令，但許多任務仍需要與圖形使用者介面互動，例如填寫表單並送出。要完成這樣的任務，代理程式必須像人類一樣瀏覽網站或應用程式，過程中有點擊、輸入等動作。對於打造強大且通用的代理程式而言，能夠做到填寫表單、操作下拉選單與篩選器等互動元素，並在需要身分登入的情況下進行操作，是關鍵的一步。

於是 Gemini 2.5 Computer Use 模型為此而生，它的核心能力透過 Gemini API 新增的「computer_use」工具公開，並在一個迴圈內運行，該工具的輸入在於使用者請求、環境的截圖以及近期操作的歷史紀錄。這款模型可用於網路介面測試，或在無 API 或其他直接連接的情況下操作僅供人類使用的網路介面。

Gemini 2.5 Computer Use 模型推出時間點恰好碰上 OpenAI 開發者大會，而 OpenAI 已打造一套自主代理系統 ChatGPT Agent，另一競爭對手 Anthropic 去年已釋出具備 computer use 功能的 Claude 模型版本，看來都走上開發通用代理程式的必經之路。

但與 OpenAI、Anthropic 做法不同的是，Google 的 Gemini 2.5 Computer Use 模型只能存取瀏覽器，而非整個電腦使用環境。Google 指出這款模型目前尚未最佳化至桌面作業系統層級的控制，僅支援 13 種瀏覽器操作，包括開啟瀏覽器、輸入文字等。Google 還強調，這款模型在多項 Web 和行動控制的基準測試展現強大性能。

錄自：科技新報

已有 1 人評分	SOGO幣	收起理由
smartlion	+ 10	您發表的文章內容豐富，無私分享造福眾人，.

總評分: SOGO幣 + 10 查看全部評分

喜歡嗎？分享這篇文章給親朋好友︰

檢舉

返回列表

本論壇為非營利自由討論平台，所有個人言論不代表本站立場。文章內容如有涉及侵權，請通知管理人員，將立即刪除相關文章資料。侵權申訴或移除要求：abuse@oursogo.com
GMT+8, 2025-11-3 21:23	手機版\|SOGO論壇

	品味生活\|休閒天地\|興趣嗜好\|學術藝文\|女性頻道\|電腦數位\|遊戲天堂\|影視音樂\|宗教綜合\|綜合圖片\|綜合影片\|成人園地
	© 2004-2025 SOGO論壇 OURSOGO.COM

[AI 應用] Google 新模型釋出，AI 模仿人類使用瀏覽器、填寫表單 [複製連結]

瀏覽過的版塊