Kompleks Anthropic Claude złożony z 16 agentów AI samodzielnie stworzył kompilator języka C.
W ramach eksperymentu firma Anthropic zebrała grupę 16 autonomicznych agentów AI, którzy wspólnie od zera stworzyli kompilator języka C w Rust. Wynik – „czysta” implementacja, która potrafi budować jądro Linux 6.19 i kompilować takie projekty jak PostgreSQL, SQLite, Redis, FFmpeg i QEMU, ale pozostaje znacznie za GCC pod względem jakości i wydajności.
Jak to zostało zrobione
Etap | Co się stało
---|---
Przygotowanie | 16 egzemplarzy modelu Claude Opus 4.6 uruchomiono w osobnych kontenerach Docker bez dostępu do Internetu. Każdy klonuje wspólne repozytorium Git i otrzymuje zadania przez pliki lock.
Samodzielne planowanie | Brak centralnego koordynatora: każdy agent sam określa, jaki „oczywisty” fragment pracy wykona dalej. W przypadku konfliktu scalanie kodu odbywa się automatycznie.
Rozwój | Agentom powierzono napisanie kompilatora C od zera. Praca trwała 2 tygodnie i wymagała prawie 2000 sesji Claude Code.
Testowanie | Aby nie „zatkać” kontekstu modelu długimi zapytaniami, testy uruchamiane są w trybie podsumowania (tylko kilka linii wyjścia). Do przyspieszenia dodano szybki tryb przetwarzania 1–10 % testów.
Ostateczny produkt
* Rozmiar – około 100 000 linii kodu Rust.
* Funkcjonalność – potrafi zbudować jądro Linux 6.19 na x86, ARM i RISC‑V; kompiluje PostgreSQL, SQLite, Redis, FFmpeg, QEMU; przechodzi ~99 % testów GCC.
* Ograniczenia – nie generuje 16‑bitowego kodu maszynowego (do uruchomienia Linux potrzebny jest GCC), asembler i linker działają z błędami, a wydajność kodu jest niższa niż w GCC. Jakość wygenerowanego Rust pozostawia wiele do życzenia w porównaniu z pracą doświadczonego programisty.
Co kosztowało eksperyment
Wskaźnik | Koszt
---|---
Tokeny Claude API | ~20 000 USD
Dodatkowe koszty (szkolenie modelu, organizacja projektu, zestawy testowe) | Nie wliczone w podaną kwotę
Lekcje i wnioski
1. Granica autonomii – przy wzroście kodu do ~100 000 linii agenci przestają w pełni rozumieć projekt; wydaje się to górną granicą samodzielnego AI.
2. Potrzeba wsparcia – próby rozszerzenia funkcjonalności często psuły już działające części kodu.
3. Znaczenie środowiska programistycznego – izolacja od Internetu i prawidłowa konfiguracja testów okazały się krytyczne dla stabilnej pracy agentów.
Podsumowanie
Eksperyment pokazuje, że współczesne modele AI potrafią generować złożone systemy programowe przy minimalnym nadzorze. Jednak dopiero nie mogą całkowicie zastąpić doświadczonych deweloperów: jakość kodu, wydajność i niezawodność pozostają niższe niż w tradycyjnych kompilatorach, a skala projektu jest ograniczona do setek tysięcy linii. To ważny krok naprzód, ale jeszcze daleko od pełnej autonomicznej produkcji oprogramowania.
Komentarze (0)
Podziel się swoją opinią — prosimy o uprzejmość i trzymanie się tematu.
Zaloguj się, aby komentować