Nvidia wypuściła chip Groq 3 LPU, który przyspiesza inferencję modeli AI do poziomu tokenów.

Nvidia wypuściła chip Groq 3 LPU, który przyspiesza inferencję modeli AI do poziomu tokenów.

8 software

Nvidia ujawnia nowe możliwości platformy Vera Rubin

Na konferencji GTC tego roku dyrektor generalny Nvidia Jen-Hsun Huang ogłosił rozszerzenie platformy Vera Rubin. Podstawą nowych funkcji jest własność intelektualna nabyta od firmy Groq, a do Rubina włączono układ *Groq 3 LPU* – akcelerator inferencji zaprojektowany do wydawania tokenów z wysoką prędkością i niskim opóźnieniem.

Co już istnieje w Vera Rubin
Platforma składa się z sześciu kluczowych komponentów, które Nvidia łączy w systemy jednostkowe i skalibruje do dużych fabryk AI:

KomponentOpis
GPU RubinKarta graficzna z 288 GB HBM4
CPU VeraCentralny procesor
NVLink 6System wewnątrzsystemowego skalowania
ConnectX‑9Inteligentny adapter sieciowy BlueField‑4
Spectrum‑XProcesor przetwarzania danych
Kommutator intersystemowego skalowania z wbudowaną optyką

Groq 3 LPU zostało dodane jako nowy blok konstrukcyjny, który będzie używany przy wdrażaniu dużych systemów.

Dlaczego Groq 3 LPU wyróżnia się
Główną różnicą jest architektura pamięci. Podczas gdy większość akceleratorów korzysta z HBM jako pamięci roboczej, każdy Groq 3 LPU zawiera 500 MB SRAM. Porównanie:

ParametrGPU Rubin (HBM4)Groq 3 LPU (SRAM)
Pojemność288 GB0,5 GB
Przepustowość~22 TB/sdo 150 TB/s

Dla zadań inferencyjnych wrażliwych na przepustowość korzyść SRAM jest oczywista. Dlatego Nvidia włączyła Groq 3 do Rubina – aby zwiększyć szybkość wydawania tokenów.

Stojak Groq 3 LPX
W stojaku znajduje się 256 układów Groq 3 LPU, co daje:

- 128 GB SRAM
- 40 PB/s sumarycznej przepustowości
- 640 TB/s interfejsu wewnątrzsystemowego

Wiceprezes ds. hipermaksymalnych rozwiązań Ian Buck nazwał ten stojak współprocesorem dla Rubina, podkreślając jego rolę w zwiększeniu wydajności dekodowania na każdym poziomie modelu i tokena.

Wpływ na systemy wieloagentowe
Buck zauważył, że Groq 3 LPX będzie kluczowym elementem przyszłego rynku AI – systemów wieloagentowych. Gdy agenci wymieniają dane bezpośrednio, a nie przez chatboty, wymagania dotyczące reakcji zmieniają się: od 100 tokenów/s do ponad 1 500+ tokenów/s i wyżej.

Konkurenci i perspektywy
W tekście wspomniano konkurenta – Cerebras, używający Wafer‑Scale Engine (WSE) z ogromnym SRAM dla niskolatencyjnej inferencji. OpenAI już wykorzystuje Cerebras w swoich zaawansowanych modelach dzięki korzystnemu opóźnieniu.

Buck również zauważył, że pojawienie się Groq 3 LPU może zmniejszyć zależność od akceleratora Rubin CPX. Obecnie Nvidia koncentruje się na integracji stojaka Groq 3 LPX z platformą, a oba układy mają wzmocnić inferencję bez konieczności dużych ilości pamięci GDDR7.

Wniosek:

Nowy układ Groq 3 LPU i jego stojak LPX wzmacniają Vera Rubin w segmencie niskolatencyjnej inferencji, otwierając drogę do szybszych systemów AI wieloagentowych i konkurowania z graczami takimi jak Cerebras.

Komentarze (0)

Podziel się swoją opinią — prosimy o uprzejmość i trzymanie się tematu.

Nie ma jeszcze komentarzy. Zostaw komentarz i podziel się swoją opinią!

Aby dodać komentarz, zaloguj się.

Zaloguj się, aby komentować