SOGO論壇
  登入   註冊   找回密碼
查看: 7732|回覆: 0
列印 上一主題 下一主題

[AI 應用] 香蕉暗號揭曉!Gemini 精準圖像生成功能挑戰 ChatGPT [複製連結]

Rank: 10Rank: 10Rank: 10

狀態︰ 離線
跳轉到指定樓層
1
發表於 2025-8-27 16:51:21 |只看該作者 |倒序瀏覽 | x 1
這段時間 Google 高層頻頻預告香蕉暗號「Nano Banana」,26 日終於揭曉答案,由 Google DeepMind 推出最先進的圖像生成和編輯模型「Gemini 2.5 Flash Image」,並導入 Gemini 應用程式提供用戶「免費使用」。

 

Gemini 2.5 Flash Image 能夠根據用戶的文字提示,對圖像進行更精準的編輯,同時保持角色或物件外觀一致,這是大多數圖像生成工具難以做到的地方。舉例來說,若向 ChatGPT、Grok 請求更改照片中某人襯衫的顏色,結果往往會出現臉部扭曲或背景變得不自然,但是 Gemini 可望解決這個痛點。

Google 舉例,透過 Gemini 2.5 Flash Image 來模糊圖像背景、去除襯衫上的污漬、將整個人物從照片中移除、更改拍攝主體的姿勢、為黑白照片上色等。

Gemini 2.5 Flash Image 還具備更進階的「世界知識」,能從單一文字提示結合多個參考,例如將沙發圖、客廳照片及配色設計整合成一個和諧的生成圖像。

雖然新功能讓用戶更輕鬆建立並編輯圖像,但 Google 仍設下限制用戶濫用的安全機制。面對 Deepfake 造假議題,AI 圖像往往讓用戶難以分辨內容真偽,Google 會在 AI 生成圖像加入浮水印,並在 metadata 加上標記。

除導入 Gemini 應用程式外,Gemini 2.5 Flash Image 透過 Gemini API 及 Google AI Studio、Vertex AI 平台提供給開發者。收費為每百萬個輸出詞元(token)收費 30 美元,每張圖片約含 1,290 輸出詞元(相當於每張圖 0.039 美元),輸入和其他輸出模式則照 Gemini 2.5 Flash 既有定價。

Gemini 強化功能、推升用戶
圖像生成模型成為大型科技公司的重要戰場,ChatGPT 今年 3 月底加入 4o 圖像生成(4o Image Generation)功能,用戶嘗試吉卜力動畫風格的圖像引爆熱潮,為此 OpenAI 執行長奧特曼(Sam Altman)稱「我們的 GPU 快要燒壞了」,ChatGPT 用戶和用量明顯暴增。

現在 Gemini 應用程式藉 Gemini 2.5 Flash Image 獲得重大升級,可望迎頭趕上 ChatGPT 受歡迎的圖像生成功能,吸引用戶前來嘗試,甚至幫助 Google 縮小與 OpenAI 之間的用戶差距。ChatGPT 目前每週活躍用戶超過 7 億,而從 7 月 Google 財報電話會議所述,執行長皮查伊(Sundar Pichai)提及 Gemini 每月活躍用戶 4.5 億,每週活躍用戶恐怕更低。

此外,Meta 上週宣布與 Midjourney 建立合作夥伴關係,獲得 Midjourney 美學技術的授權,用於 Meta 未來的模型和產品。由矽谷創投 Andreessen Horowitz(a16z)支持的德國新創 Black Forest Labs 及其 FLUX 模型,仍在多項基準測試領先。

錄自:科技新報
已有 1 人評分SOGO幣 收起 理由
smartlion + 10 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 10   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊


本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2025-10-3 05:42

© 2004-2025 SOGO論壇 OURSOGO.COM
回頂部