去年底AWS re:Invent全球大會還推出了下一代自研推論晶片Inferentia2,以及基於此的Inf2執行個體,這是唯一一個專門為大型Transformer模型分散式推論建立的執行個體。與Inf1執行個體相比,它提供高達4倍的輸送量,降低多達10倍的延遲。與基於GPU的執行個體相比,每瓦效能提升高達45%,同時也支援諸如GPT類型的大型複雜模型,並且可以用單執行個體實現1750億參數模型的推論。
AWS日前也宣佈與AI技術公司Hugging Face進一步合作,以加速對大語言模型和視覺模型的訓練、微調和部署,使用者能更輕鬆優化效能並降低成本,從而更快地將生成式AI應用投入到生產環境。欲瞭解更多AWS生成式AI相關資訊,請至此連結。
助力產業先行者快速實踐業務可能性
設計和開發體驗管理軟體公司Qualtrics核心機器學習負責人Aaron Colak表示,「Qualtrics的重點是借助技術創新縮小體驗差距。為了實現這一目標,我們正在開發複雜的多工、多模態的深度學習模型,包括文本分類、序列標記、論述分析、關鍵短語擷取、主題擷取、聚類以及端到端對話理解等。隨著我們在更多應用程式中使用這些複雜的模型,以及非結構化資料量不斷增長,為了提供客戶最佳體驗,我們需要效能更高的推理優化解決方案,如Inf2執行個體來滿足我們的需求。我們很高興看到新一代Inf2執行個體的推出,它不僅讓我們實現更高的輸送量,同時也顯著降低延遲,而且還引入了分散式推理和支援增強的動態形狀輸入等功能。隨著我們部署更大、更複雜的模型,這都將能進一步滿足我們對任何部署的更高要求。」
首圖來源: from Pixabay