Apple wytrenowała kompaktowe modele sztucznej inteligencji, które lepiej opisują obrazy niż ich większe konkurenci.

08.04.2026 18 software

Apple ujawnia nową technologię „RubiCap” do opisywania obrazów

Naukowcy z firmy Apple opracowali metodę nazwaną *RubiCap*, która pozwala małym modelom AI generować dokładniejsze i bardziej szczegółowe opisy zdjęć niż ich duże odpowiedniki.

Jak działa RubiCap
1. Analiza obrazu

Aby stworzyć szczegółowy tekst, model najpierw rozpoznaje wiele obiektów i obszarów w kadrach. Dostarcza to głębokie zrozumienie kompozycji, a nie powierzchowne opisanie.

2. Praktyczna wartość

Takie umiejętności są przydatne do szkolenia podreczników AI, generatorów obrazów na podstawie tekstu oraz specjalistycznych funkcji (np. ulepszanie treści wizualnej).

3. Problem zasobów

Tradycyjne podejścia do nauki systemów szczegółowego opisu wymagają dużych nakładów obliczeniowych zarówno w fazie początkowej, jak i podczas dalszego uczenia z wzmocnieniem.

Metodologia eksperymentalna
- Wybór obrazów – losowo wybrano 50 000 zdjęć z zestawów *PixMoCap* i *DenseFusion‑4V‑100K*.

- Generowanie opisów – wykorzystano istniejące modele widzenia komputerowego: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT oraz wciąż uczące się modele Apple.

- Ocena jakości – Gemini 2.5 Pro pełniła rolę eksperta: analizowała opisy, wykrywała zgodności i błędy, formułując jasne kryteria oceny.

- Ocena sędziowska – model Qwen 2.5‑7B‑Instruct przydzielał punkty za każdy kryterium i generował sygnał nagrody dla uczącego się modelu.

Wyniki
- Uczący się model otrzymywał konkretne informacje zwrotne, co pozwalało szybko poprawiać dokładność opisów bez konieczności polegania na jedynym „poprawnym” odpowiedzi.

- W rezultacie Apple stworzyła trzy własne modele: RubiCap‑2B, RubiCap‑3B i RubiCap‑7B (odpowiednio 2, 3 i 7 miliardów parametrów).

- Podczas testów zadań opisania obrazów RubiCap przewyższył konkurencję przy 32 mld i nawet 72 mld parametrach. W niektórych przypadkach RubiCap‑3B osiągał lepsze wyniki niż RubiCap‑7B, potwierdzając, że rozmiar modelu nie zawsze gwarantuje wyższą wydajność.

W ten sposób technologia RubiCap pokazuje, jak można uzyskać wysoką jakość opisów obrazów przy mniejszych zasobach i bardziej efektywnym uczeniu.

Apple wytrenowała kompaktowe modele sztucznej inteligencji, które lepiej opisują obrazy niż ich większe konkurenci.

Related news

Google Gemini zdobyła 750 mln aktywnych użytkowników miesięcznie, zostawiając ChatGPT zaledwie niewielką odległość od lidera.

Nothing zaprezentowała wersję beta Essential Apps – platformy do tworzenia mini‑aplikacji przy użyciu sztucznej inteligencji.

Microsoft wyjaśniła, dlaczego konta VeraCrypt i innych otwartych usług zostały zablokowane – ze względu na nieostrożność ich twórców

Aplikacja Meta✴ AI zajęła piątą pozycję w App Store po uruchomieniu Muse Spark

Komentarze (0)

Zaloguj się, aby komentować

Apple wytrenowała kompaktowe modele sztucznej inteligencji, które lepiej opisują obrazy niż ich większe konkurenci.

Related news

Google Gemini zdobyła 750 mln aktywnych użytkowników miesięcznie, zostawiając ChatGPT zaledwie niewielką odległość od lidera.

Nothing zaprezentowała wersję beta Essential Apps – platformy do tworzenia mini‑aplikacji przy użyciu sztucznej inteligencji.

Microsoft wyjaśniła, dlaczego konta VeraCrypt i innych otwartych usług zostały zablokowane – ze względu na nieostrożność ich twórców

Aplikacja Meta✴ AI zajęła piątą pozycję w App Store po uruchomieniu Muse Spark

Zaloguj się, aby komentować

Google Gemini zdobyła 750 mln aktywnych użytkowników miesięcznie, zostawiając ChatGPT zaledwie niewielką odległość od lidera.

Nothing zaprezentowała wersję beta Essential Apps – platformy do tworzenia mini‑aplikacji przy użyciu sztucznej inteligencji.

Aplikacja Meta✴ AI zajęła piątą pozycję w App Store po uruchomieniu Muse Spark