推論長情境側重於快速存取大量模型參數
相較之下,模型推論階段,特別是長情境任務,雖然也需要龐大的記憶體頻寬,但更側重於快速存取大量模型參數。推論是按需求(on demand)、即時的,並且完全由使用者行為塑造,這使其不像訓練那樣是可預測、可重複的過程,反而更加混亂且難以優化。因此,每一次使用者與 AI 的互動(無論是詢問聊天機器人或生成圖像)都會觸發推論工作。推論工作負載不像訓練那樣直線運行,它們會迴環、優化和再處理。每一次互動都會觸發大量的讀取、寫入和查找操作,這些每秒輸入/輸出操作(IOPS) 迅速累積,對基礎設施構成指數級的壓力。
事實上,「推論等同於 IOPS」(Inference = IOPS)是業界對此現象的精準描述。推論應用所驅動的併發 I/O,甚至可能比歷史上基於CPU的計算應用高出數百或數千倍。Meta 的首席 AI 科學家楊立昆(Yann LeCun)曾明確指出,AI 基礎設施的大部分成本用於推論,就為數十億人提供 AI 助理服務。這顯示出推論已成為 AI 基礎設施的真正瓶頸。
生成式 AI 進入多模態融合階段,從比較算力到總擁有成本
整體來說,AI 運算需求的轉變,源自於生成式 AI 進入多模態融合的新階段。AI 應用核心已從專注於文字的 LLM 擴展至聲音、視覺與動態的多模態內容,例如 OpenAI 發布的 Sora 等文字生成影片模型。AI 從影片生成走向可互動的 3D 世界,不僅是運算量的線性增加,更是一次運算邏輯的質變。無論是影片還是 3D 模型,其對硬體需求的嚴苛性都源於 Token 用量的指數級增長。當 AI 從純文字轉向多模態,每個影片畫格或 3D 場景所需的 Token 數量遠超文字,導致日均 Token 消耗量在短時間內暴增數十倍。這股推論需求爆炸正是迫使半導體產業必須優化產品線,轉向專為推論工作負載設計的解決方案的核心驅動力。
AI 對記憶體的影響並非只局限於雲端資料中心。隨著 AI 技術從雲端推向 AI 耳機、AI 眼鏡和 AI PC 等終端設備,邊緣運算的重要性日益凸顯。在這些邊緣 AI 應用中,NOR Flash 成為關鍵元件。由於NOR Flash 的記憶體單元採並聯設計,使其具備優異的隨機存取能力和極快的讀取速度,並允許程式碼直接在晶片內執行(eXecute In Place,XiP)。這使其成為邊緣 AI 裝置中,用於儲存啟動碼、韌體和關鍵程式碼的理想選擇。
記憶體產業鏈的黃金時代與戰略布局
AI 推論需求的爆炸性成長,正以前所未有的速度吞噬記憶體產能,導致 DRAM 與 NAND 快閃記憶體市場供需失衡。