Nvidia wypuściła chip Groq 3 LPU, który przyspiesza inferencję modeli AI do poziomu tokenów.

Nvidia ujawnia nowe możliwości platformy Vera Rubin

Na konferencji GTC tego roku dyrektor generalny Nvidia Jen-Hsun Huang ogłosił rozszerzenie platformy Vera Rubin. Podstawą nowych funkcji jest własność intelektualna nabyta od firmy Groq, a do Rubina włączono układ *Groq 3 LPU* – akcelerator inferencji zaprojektowany do wydawania tokenów z wysoką prędkością i niskim opóźnieniem.

Co już istnieje w Vera Rubin
Platforma składa się z sześciu kluczowych komponentów, które Nvidia łączy w systemy jednostkowe i skalibruje do dużych fabryk AI:

Komponent	Opis
GPU Rubin	Karta graficzna z 288 GB HBM4
CPU Vera	Centralny procesor
NVLink 6	System wewnątrzsystemowego skalowania
ConnectX‑9	Inteligentny adapter sieciowy BlueField‑4
Spectrum‑X	Procesor przetwarzania danych
Kommutator intersystemowego skalowania z wbudowaną optyką

Groq 3 LPU zostało dodane jako nowy blok konstrukcyjny, który będzie używany przy wdrażaniu dużych systemów.

Dlaczego Groq 3 LPU wyróżnia się
Główną różnicą jest architektura pamięci. Podczas gdy większość akceleratorów korzysta z HBM jako pamięci roboczej, każdy Groq 3 LPU zawiera 500 MB SRAM. Porównanie:

Parametr	GPU Rubin (HBM4)	Groq 3 LPU (SRAM)
Pojemność	288 GB	0,5 GB
Przepustowość	~22 TB/s	do 150 TB/s

Dla zadań inferencyjnych wrażliwych na przepustowość korzyść SRAM jest oczywista. Dlatego Nvidia włączyła Groq 3 do Rubina – aby zwiększyć szybkość wydawania tokenów.

Stojak Groq 3 LPX
W stojaku znajduje się 256 układów Groq 3 LPU, co daje:

- 128 GB SRAM
- 40 PB/s sumarycznej przepustowości
- 640 TB/s interfejsu wewnątrzsystemowego

Wiceprezes ds. hipermaksymalnych rozwiązań Ian Buck nazwał ten stojak współprocesorem dla Rubina, podkreślając jego rolę w zwiększeniu wydajności dekodowania na każdym poziomie modelu i tokena.

Wpływ na systemy wieloagentowe
Buck zauważył, że Groq 3 LPX będzie kluczowym elementem przyszłego rynku AI – systemów wieloagentowych. Gdy agenci wymieniają dane bezpośrednio, a nie przez chatboty, wymagania dotyczące reakcji zmieniają się: od 100 tokenów/s do ponad 1 500+ tokenów/s i wyżej.

Konkurenci i perspektywy
W tekście wspomniano konkurenta – Cerebras, używający Wafer‑Scale Engine (WSE) z ogromnym SRAM dla niskolatencyjnej inferencji. OpenAI już wykorzystuje Cerebras w swoich zaawansowanych modelach dzięki korzystnemu opóźnieniu.

Buck również zauważył, że pojawienie się Groq 3 LPU może zmniejszyć zależność od akceleratora Rubin CPX. Obecnie Nvidia koncentruje się na integracji stojaka Groq 3 LPX z platformą, a oba układy mają wzmocnić inferencję bez konieczności dużych ilości pamięci GDDR7.

Wniosek:

Nowy układ Groq 3 LPU i jego stojak LPX wzmacniają Vera Rubin w segmencie niskolatencyjnej inferencji, otwierając drogę do szybszych systemów AI wieloagentowych i konkurowania z graczami takimi jak Cerebras.

Nvidia wypuściła chip Groq 3 LPU, który przyspiesza inferencję modeli AI do poziomu tokenów.

Related news

Google Gemini zdobyła 750 mln aktywnych użytkowników miesięcznie, zostawiając ChatGPT zaledwie niewielką odległość od lidera.

Nothing zaprezentowała wersję beta Essential Apps – platformy do tworzenia mini‑aplikacji przy użyciu sztucznej inteligencji.

Microsoft wyjaśniła, dlaczego konta VeraCrypt i innych otwartych usług zostały zablokowane – ze względu na nieostrożność ich twórców

Aplikacja Meta✴ AI zajęła piątą pozycję w App Store po uruchomieniu Muse Spark

Komentarze (0)

Zaloguj się, aby komentować

Nvidia wypuściła chip Groq 3 LPU, który przyspiesza inferencję modeli AI do poziomu tokenów.

Related news

Google Gemini zdobyła 750 mln aktywnych użytkowników miesięcznie, zostawiając ChatGPT zaledwie niewielką odległość od lidera.

Nothing zaprezentowała wersję beta Essential Apps – platformy do tworzenia mini‑aplikacji przy użyciu sztucznej inteligencji.

Microsoft wyjaśniła, dlaczego konta VeraCrypt i innych otwartych usług zostały zablokowane – ze względu na nieostrożność ich twórców

Aplikacja Meta✴ AI zajęła piątą pozycję w App Store po uruchomieniu Muse Spark

Zaloguj się, aby komentować

Nvidia wypuściła chip Groq 3 LPU, który przyspiesza inferencję modeli AI do poziomu tokenów.

Google Gemini zdobyła 750 mln aktywnych użytkowników miesięcznie, zostawiając ChatGPT zaledwie niewielką odległość od lidera.

Nothing zaprezentowała wersję beta Essential Apps – platformy do tworzenia mini‑aplikacji przy użyciu sztucznej inteligencji.

Aplikacja Meta✴ AI zajęła piątą pozycję w App Store po uruchomieniu Muse Spark