企業在部署大型語言模型 (LLM) 時面臨的主要挑戰之一,是確保能夠有效擷取來自不同環境和外部來源的數據,並使其符合上下文,以輔助 AI 推理。RAG 是一種領先的 AI 推理技術,能夠安全地從外部數據源檢索新資訊,從而增強已訓練的 AI 模型。在推理過程中使用 RAG 有助於減少 AI 模型的幻覺,提高輸出結果的準確性、可靠性和豐富性,並減低對成本高昂的再訓練週期的需求。
「隨著第一波生成式 AI 技術於 2023 年開始應用於企業,大多數機構的運算和數據基礎設施資源都集中在 AI 模型訓練上。隨著生成式 AI 模型和應用程式的成熟,許多企業現在正準備轉移這些資源,專注於推理,但可能不知從何入手。」WEKA 總政總裁 Shimon Ben-David 說道。「大規模運行 AI 推理極具挑戰性。我們正積極利用 WEKA、NVIDIA、Run:ai、Kubernetes 及 Milvus 等公司領先業界的 AI 和雲端基礎設施方案,開發 WEKA AI RAG 架構平台,務求提供一個穩健的生產就緒藍圖,簡化 RAG 的實施過程,從而提升企業 AI 模型的運行準確性、安全性和成本效益。」
更快構建生產就緒的推理環境:WARRP 的基礎設施和雲端通用架構有助生成式 AI 開發人員和雲端架構師簡化生成式 AI 應用程式的開發流程,並更快地大規模運行推理操作。WARRP 能與機構現有和未來的 AI 基礎設施組件、大型和小型語言模型,以及首選的伺服器、超大規模或專用 AI 雲端供應商無縫整合,讓機構在構建 AI 推理堆棧時享有極大的靈活性和選擇。
端到端 AI 推理堆棧優化:運行 RAG 管道可能需要極高的系統資源,尤其是在處理大型模型庫和複雜的 AI 工作負載時。機構可以通過將 WEKA 數據平台整合到其 AI 推理堆棧中,顯著提升效能,尤其是在多模型推理場景下。WEKA 數據平台能夠高效地加載和卸載模型,從而進一步加快速度,並有效地為用戶提示提供 token,尤其是在涉及多個 AI 模型的複雜鏈式推理工作流程中。
「隨著 AI 應用日益普及,業界迫切需要簡化的方法來大規模部署生產工作負載。同時,基於 RAG 的推理技術正成為人工智能創新競賽中的一大熱點,亦為機構的底層數據基礎設施帶來了新的考量。」Run:ai 技術總監 Ronen Dar 說道。「WARRP 參考架構為構建推理環境的客戶提供了一個出色的解決方案,並提供了一個必要的藍圖,協助他們使用 NVIDIA、WEKA 和 Run:ai 的業界領先組件,快速、靈活和安全地進行開發,務求最大限度地提高私有雲、公共雲和混合雲環境中的 GPU 使用率。此組合方案能讓客戶在 AI 創新領域保持領先優勢,達致雙贏。」
「企業正在尋找一種簡單的方法來嵌入數據,以構建和部署 RAG 管道,」NVIDIA 企業生成式 AI 軟件總監 Amanda Saunders 表示,「將 NVIDIA NIM 和 NeMo 與 WEKA 結合使用,將為企業客戶提供一條快速途徑,以大規模開發、部署和運行高效能 AI 推理和 RAG 操作。」
Applied Digital 「隨著越來越多公司利用先進的 AI 和生成式 AI 推理技術,為客戶和員工賦能,他們都意識到利用 RAG 可以提高簡潔性、功能性和效率,」Applied Digital 技術總監Mike Maniscalco 表示,「WEKA 的 WARRP 堆棧提供了一個非常實用的參考框架,在 NVIDIA 強大技術和可靠、可擴展的雲端基礎設施支援下,將 RAG 管道交付到生產部署環境。」
Ori Cloud 「領先的生成式 AI 公司正在 Ori Cloud 上運行,以訓練全球規模最大的 LLM,並且由於我們與 WEKA 數據平台的整合,GPU 使用率已達致最高,」Ori Cloud 創辦人兼行政總裁 Mahdi Yahya 表示。「我們期待與 WEKA 攜手合作,使用 WARRP 架構構建強大的推理解決方案,協助 Ori Cloud 客戶最大限度地發揮 RAG 管道的效益,從而加速 AI 創新。」
關於 WEKA WEKA 正在為 AI 時代的企業數據堆疊構建一種新方法。WEKA® 數據平台採用雲端原生及 AI 原生架構,樹立 AI 基礎設施的標竿。該平台可靈活部署於任何地方,支援本地、雲端和邊緣運算環境之間的無縫數據轉移。該平台將傳統數據孤島轉化為動態數據管道,可加速 GPU 運算、AI 模型訓練和推理以及其他高性能工作負載,使之能更高效地運作、減少能耗,並降低相關的碳排放。WEKA 幫助全球最具創新精神的企業和研究機構解決複雜的數據挑戰,更快速、更可持續地探索新發現、見解和成果,其客戶更是包括財富 50 強中的 12 間企業。請瀏覽 www.weka.io 了解更多資訊,或在LinkedIn、X和Facebook 上關注 WEKA。