Uruchomienie modelu AI na starym PDP‑11: entuzjasta użył procesora 6 MHz i 64 KB pamięci RAM
Veteran Microsoft pokazuje działanie transformera na starym komputerze
*Dave Plummer – znany programista Windows,*
*pokazuje, że współczesne modele AI można trenować nawet na sprzęcie z dekadnej przeszłości.*
Co zostało zrobione
- Sprzęt: PDP‑11 / 44, 47‑letni komputer z procesorem 6 MHz i 64 KB RAM.
- Model: „Attention 11” – sieć transformera napisana w asemblerze PDP‑11 przez Damien Buret.
- Zadanie treningowe: wygenerować odwróconą sekwencję ośmiu liczb.
Modele nie muszą zapamiętywać przykładów; mają nauczyć się zasady „odwracania” sekwencji.
Jak to działa
1. Inicjalizacja – model zaczyna z losowymi wagami, dokładność niemal zerowa.
2. Trening – przy każdym kroku wykonywany jest forward pass (8‑bitowa stała zmiennoprzecinkowa) i aktualizacja wag.
3. Stopniowe przyswajanie wzorca – po kilku setkach iteracji mechanizm uwagi „wykrywa” zasadę, a model przechodzi od zgadywania do rzeczywistej wiedzy.
> “Obserwujemy uproszczoną anatomię samego uczenia… maszyna ostatecznie przekracza niewidzialną granicę — od zgadywania do wiedzy.” – Plummer
Wyniki
- Dokładność: 100 % przy zadaniu odwróconej sekwencji.
- Szybkość: około 350 kroków treningowych, co zajęło ~3,5 minuty na PDP‑11/44 z pamięcią podręczną.
Co to oznacza dla współczesnego AI
Plummer podkreśla, że fundamentalne zasady uczenia – powtarzające się operacje arytmetyczne i korekta błędów – są w pełni realizowane nawet w tak prostym systemie.
„Ta stara maszyna nie myśli mistycznie; po prostu aktualizuje kilka tysięcy liczb. Istota współczesnego AI to skalowanie tego procesu.”
W ten sposób autor udowodnił, że podstawowy mechanizm transformera pozostaje taki sam, niezależnie od sprzętu, na którym działa.
Komentarze (0)
Podziel się swoją opinią — prosimy o uprzejmość i trzymanie się tematu.
Zaloguj się, aby komentować