Groq研發LPU挑戰Nvidia 專為大型語言模型而設生成答案速度超GPU

prev next

【明報專訊】AI晶片龍頭Nvidia（美：NVDA）的圖像處理器（GPU），通常被視為運行AI模型的標配，但對於大型語言模型（LLM）的處理效率，AI初創公司Groq的語言處理器（Language Processing Unit, LPU），似乎超越Nvidia的GPU。Groq的LPU是推理引擎（inference engine），專為運行大型語言模型而設，可助OpenAI旗下的ChatGPT及Google旗下的Gemini等AI聊天機械人迅速反應。

速度差距最高可達18倍

根據Artificial Analysis的第三方測試，Groq生成答案的速度每秒可達241個tokens（語言模型生成內容的最小單位，包括單字、詞素及標點），相比以GPU驅動的微軟Azure生成答案的速度每秒只有18個tokens。根據Groq網站提供的數據，LPU運行Llama 2 70B模型時，其AI生成速度勝過所有基於雲端的生成式AI服務供應者，速度差距最高可達18倍，未來可能成為Nvidia GPU的競爭對手。市場等待Nvidia周三收市後公布業績，美股三大指數早段下滑。

AI晶片執行的任務主要分兩大類，分別是訓練及推理。訓練AI模型需要大量運算及記憶體容量，但存取速度並非最重要因素。不過在進行推理作出回應時要講求效率，讓用戶在短時間內獲得大量信息。

創辦人：繞過兩瓶頸提升回應效率

Groq創辦人Jonathan Ross指出，透過LPU，Groq繞過了GPU和中央處理器（CPU）遇到的兩大LLM瓶頸——運算密度和記憶體頻寬，使回應效率提升。Groq的LPU擁有230MB靜態隨機存取記憶體（SRAM）及每秒80 TB記憶體頻寬，優於傳統的CPU和GPU配置。Ross創業前曾是Google一個AI晶片部門的創辦人之一。該部門研究用於訓練AI模型的尖端晶片。

CryptoSlate指出，將售價為19,948美元的Groq LPU，與價格相若的Nvidia旗艦A100 GPU對比，Groq LPU處理大量簡單資料（INT8）的效率表現優勝，不過當處理更複雜的資料處理任務（FP16），並需要更高的精確度，Groq LPU無法達到A100 的水平。Groq LPU主要用於運行LLM，而不是原始運算或微調模型。

此外，美國科技媒體The Information引述知情人士稱，微軟（美：MSFT）正開發一款新的網絡卡（network card），以提升其AI晶片Maia的效能，並藉此降低對Nvidia GPU的依賴。消息稱，微軟已找來網絡設備開發商Juniper Networks的聯合創辦人Pradeep Sindhu來領導網絡卡的開發。微軟去年收購了Sindhu的伺服器晶片初創公司Fungible。

據稱，微軟的網絡卡類似於Nvidia的ConnectX-7，可能需要逾一年時間開發。倘若成功，可能會減少OpenAI在微軟伺服器訓練模型所需的時間。