華為正式發布 AI 推理創新技術 UCM(推理記憶數據管理器),這項突破性成果有望降低中國 AI 推理對 HBM(高帶寬記憶體)技術依賴。到底這個新技術如何幫助企業? 是否可以更節省大量的 AI 成本? 各位企業老闆可以在這文章找到答案。
HBM 是一種高效能 3D 堆疊 DRAM 技術,廣泛應用於 AI 推理和訓練場景,但其核心技術主要掌握在外國廠商手中,成本高昂且供應受限。透過減少對 HBM 依賴,華為期望能降低 AI 推理系統成本,更能提高系統可擴展性和經濟性,為中國 AI 產業自主發展開闢新路。
目前現實挑戰相當嚴峻。外國主流模型單用戶輸出速度已進入 200 Tokens/s 區間,時延僅 5 毫秒,而中國普遍小於 60 Tokens/s,時延高達 50-100 毫秒。這種差距影響用戶體驗,更制約中國 AI 應用商業競爭力。華為 UCM 技術推出,正是直接針對推理效率與用戶體驗核心難題。
想像企業正使用 AI 客服系統,每日處理 10,000 次查詢。如果系統回應緩慢,客戶體驗差,運算成本也居高不下。更關鍵是,若系統依賴昂貴 HBM 記憶體,採購成本高,還可能面臨供應鏈風險。
在 AI 世代,Token 是計算成本基本單位,企業使用 AI 服務時按 Token 數量計費。UCM 技術在實際應用中展現驚人成效——於中國銀聯「客戶之聲」場景,原本需要超過 20 分鐘客戶問題分析,使用 UCM 後僅需 10 秒完成,推理速度提升 125 倍。在辦公助手場景中,更可支援用戶輸入超過 17 萬 Tokens 超長序列推理,徹底解決超長文件處理瓶頸。
UCM 是一款以 KV Cache 為中心推理加速套件,創新之處在於智能管理 AI 推理過程中記憶數據。理解這項技術,可想像成一個智能檔案管理系統。傳統 AI 推理系統如同把所有檔案堆在昂貴辦公桌上(HBM 高帶寬記憶體),空間有限且成本極高。而 UCM 則像一個智能助理,將正處理熱數據放辦公桌上,今天可能用到放檔案櫃(DRAM 記憶體),其他存放倉庫(專業儲存)。
當 AI 處理問題時,UCM 會智能保存和重用已計算結果。例如處理客戶查詢時,常見問題答案會被緩存起來,下次遇到類似問題可直接調用,避免重複計算。這種分級管理將首次回應時間減少 90%,系統吞吐量提升 22 倍,更重要是大幅減少對昂貴 HBM 依賴。
華為 AI 儲存首席架構師李國杰指出,市場上其他方案通常只做到部分改良,而 UCM 是首個端到端完整方案。業界現有方案幾乎只有傳統前綴緩存技術,而 UCM 提供豐富算法庫,包括商用全流程稀疏算法、後綴檢索算法等。
特別值得一提,UCM 受打字輸入法聯想功能啟發,開發預測聯想算法,能根據企業私域數據和用戶習慣構建 Token 級後綴索引,突破自回歸限制,一次輸出多詞。據透露 UCM 從 2024 年 6-7 月開始孵化,僅算法團隊就有百人級投入,未來還會面向 Agentic AI(智能體 AI)持續演進。
華為計劃於 2025 年 9 月正式開源 UCM,屆時將在魔擎社區首發,並共享給業內所有共享架構儲存廠商和生態夥伴。目前企業若想提前使用,可考慮與華為直接合作成為早期試點夥伴。
從應用場景來看,金融服務業特別適合採用 UCM 技術。中國銀聯已在「客戶之聲」、「營銷策劃」和「辦公助手」三大業務場景成功應用。電商平台、電訊公司、保險公司等需要處理大量客戶查詢企業,以及律師事務所、顧問公司等需要處理長文件機構,都是理想使用者。
技術門檻方面,UCM 可適配 MindIE、SGLang 等多種推理引擎框架,這種開放性設計降低整合難度。由於減少對昂貴硬體依賴,長期來看反而可能降低技術維護複雜度和成本。
UCM 價值體現在多個層面。首先是直接成本節省,減少 HBM 使用可顯著降低硬體投資。其次是營運效率提升,更快響應速度意味著同樣資源可服務更多客戶。第三是業務創新能力,17 萬 Tokens 超長序列處理能力可開啟以前無法實現應用場景。
更重要是戰略價值。這項技術標誌著中國在 AI 推理改良領域重要突破,透過減少對外國關鍵技術依賴,企業可更自主發展 AI 應用,降低供應鏈風險。隨著 AI 產業從「追求模型能力極限」轉向「追求推理體驗最優化」,掌握 UCM 這類改良技術將成為企業競爭力關鍵。
👇FB 熱烈討論中🔥👇 (部份回應)
更多留言 (共 158 回應)