以現今的客服 AI Agent 為例,它可能需要處理螢幕錄影、分析上傳的通話音訊,同時還要檢查資料紀錄,金融領域的可能還要解析 PDF、試算表、圖表及語音備忘錄。現今多數 AI Agent 系統分別以視覺、語音及語言的獨立模型來完成這些任務。但這種做法會因為反覆推理而增加延遲,導致跨模態的情境支離破碎,隨時間推移增加成本和誤差。
NVIDIA 開發的 Nemotron 3 Nano Omni,在 30B-A3B 的混合專家(Mixture of Experts,MoE)架構整合視覺和音訊編碼器,因此不再需要獨立的感知模型,進而大幅提升推理效率。這款模型將這項效率與強大的多模態感知準確度相結合,讓 AI 系統在具備相同互動性的情況下,能夠達到比其他多模態開放模型高出 9 倍的資料輸送量,在不犧牲回應速度和品質的同時,降低成本並提升可擴展性。
在 AI Agent 系統中,Nemotron 3 Nano Omni 能與專有雲端模型或其他 NVIDIA Nemotron 模型協同運作,例如用於高頻率執行的 Nemotron 3 Super、用於複雜規劃的 Nemotron 3 Ultra,也能與其他開發商的專有模型搭配,驅動電腦操作、文件智慧或影音推理等子代理。
Nemotron 3 Nano Omni 隨開放權重、資料集及訓練技術一同發布,讓企業能對模型的客製化和部署方式擁有高度的透明度和控制權。