此專案由創始貢獻者 CoreWeave、Google Cloud、IBM Research 與 NVIDIA 共同發起,並獲得 AMD、Cisco、Hugging Face、Intel、Lambda 和 Mistral AI 等業界領導者、加州大學柏克萊分校和芝加哥大學等學術機構的參與。此專案的目標為讓生產環境中的生成式 AI 應用像 Linux 一樣無所不在。
世界領先開放原始碼軟體解決方案供應商 Red Hat 於 Red Hat Summit 2025 正式宣布推出全新開源專案 llm-d,旨在回應未來生成式 AI(Gen AI)最關鍵的大規模推論需求。llm-d 運用突破性的生成式 AI 大規模推論技術,並採用原生 Kubernetes 架構、基於 vLLM 的分散式推論,以及智慧型 AI 感知網路路由,打造出強大的大型語言模型(LLM)推論雲端,以滿足最嚴苛的生產服務水準目標(service-level objectives,SLO)。
儘管模型訓練仍至關重要,但生成式 AI 的真正價值更仰賴有效率且可擴展的推論能力,這才是將 AI 模型轉化為可執行的洞察和使用者體驗的引擎。根據 Gartner1 預測指出,隨著市場趨於成熟,2028 年超過 80% 的資料中心工作負載加速器將專門用於推論,而非訓練用途,此趨勢凸顯出生成式 AI 的未來取決於執行能力。然而,隨著推理模型日益複雜且龐大,對資源的需求不斷攀升,種種因素不僅限制了集中式推論的可行性,其衍生的高成本和嚴重的延遲更可能成為 AI 創新的瓶頸。
Red Hat 資深副總裁暨 AI 技術長 Brian Stevens 表示:「由眾多 AI 領導者支持的 llm-d 社群的啟動,象徵著我們正處於滿足可擴展生成式 AI 推論需求的關鍵時刻,亦為企業實現更廣泛的 AI 應用時必須克服的重大挑戰。透過運用 vLLM 的創新技術和 Kubernetes 經驗證的能力,llm-d 協助企業更順暢地在擴展的跨混合雲環境中實現分散式、可擴展且高效能的 AI 推論,能夠支援任何模型、任何加速器,在任何雲端環境中運行,協助實現 AI 無限潛力的願景。」
借助 llm-d 滿足對可擴展生成式 AI 推論的需求
為應對上述挑戰,Red Hat 攜手業界夥伴共同推出 llm-d。這項具前瞻性的專案不僅能強化 vLLM 的能力以突破單一伺服器的限制,同時也為 AI 推論釋放大規模生產的潛力。llm-d 運用 Kubernetes 經驗證且強大的調度能力,將進階推論功能無縫整合至企業既有的 IT 基礎架構中。IT 團隊得以於統一平台上滿足關鍵業務工作負載的多樣化服務需求,同時透過部署創新技術將效率極大化,並大幅降低高效能 AI 加速器帶來的總體擁有成本(TCO)。
llm-d 提供一系列強大的創新功能,亮點包括:
- vLLM 迅速成為開源領域實質上的標準推論伺服器:為新興模型提供 Day 0 模型支援,可用於多種加速器,包括 Google Cloud Tensor Processor Units(TPU)。
- 預填與解碼分離:將 AI 的輸入內容和權杖生成階段分離為獨立的運算作業,並將這些作業分散到多個伺服器上執行。
- 基於 LMCache 的鍵值(key-value,KV)快取卸載:將 KV 快取的記憶體負載從 GPU 記憶體中移轉到成本效益更高且資源更豐富的標準儲存裝置,例如 CPU 記憶體或網路儲存。
- 由 Kubernetes 驅動的叢集和控制器:可在工作負載需求波動時,更有效地調度運算與儲存資源,同時維持效能並降低延遲。
- AI 感知網路路由:將傳入請求排程至最有可能擁有先前推論運算熱快取的伺服器和加速器。
- 高效能通訊應用程式介面:可在伺服器之間實現更為快速高效的資料傳輸,並支援 NVIDIA Inference Xfer Library(NIXL)。
1預測分析:全球 AI 半導體,Alan Priestley,Gartner,2024 年 8 月 2 日 – ID G00818912。GARTNER 是 Gartner, Inc. 及其關係企業在全球之註冊商標和服務標誌,經許可在此使用。版權所有。