Apple wytrenowała kompaktowe modele sztucznej inteligencji, które lepiej opisują obrazy niż ich większe konkurenci.

Apple wytrenowała kompaktowe modele sztucznej inteligencji, które lepiej opisują obrazy niż ich większe konkurenci.

18 software

Apple ujawnia nową technologię „RubiCap” do opisywania obrazów

Naukowcy z firmy Apple opracowali metodę nazwaną *RubiCap*, która pozwala małym modelom AI generować dokładniejsze i bardziej szczegółowe opisy zdjęć niż ich duże odpowiedniki.

Jak działa RubiCap
1. Analiza obrazu

Aby stworzyć szczegółowy tekst, model najpierw rozpoznaje wiele obiektów i obszarów w kadrach. Dostarcza to głębokie zrozumienie kompozycji, a nie powierzchowne opisanie.

2. Praktyczna wartość

Takie umiejętności są przydatne do szkolenia podreczników AI, generatorów obrazów na podstawie tekstu oraz specjalistycznych funkcji (np. ulepszanie treści wizualnej).

3. Problem zasobów

Tradycyjne podejścia do nauki systemów szczegółowego opisu wymagają dużych nakładów obliczeniowych zarówno w fazie początkowej, jak i podczas dalszego uczenia z wzmocnieniem.

Metodologia eksperymentalna
- Wybór obrazów – losowo wybrano 50 000 zdjęć z zestawów *PixMoCap* i *DenseFusion‑4V‑100K*.

- Generowanie opisów – wykorzystano istniejące modele widzenia komputerowego: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT oraz wciąż uczące się modele Apple.

- Ocena jakości – Gemini 2.5 Pro pełniła rolę eksperta: analizowała opisy, wykrywała zgodności i błędy, formułując jasne kryteria oceny.

- Ocena sędziowska – model Qwen 2.5‑7B‑Instruct przydzielał punkty za każdy kryterium i generował sygnał nagrody dla uczącego się modelu.

Wyniki
- Uczący się model otrzymywał konkretne informacje zwrotne, co pozwalało szybko poprawiać dokładność opisów bez konieczności polegania na jedynym „poprawnym” odpowiedzi.

- W rezultacie Apple stworzyła trzy własne modele: RubiCap‑2B, RubiCap‑3B i RubiCap‑7B (odpowiednio 2, 3 i 7 miliardów parametrów).

- Podczas testów zadań opisania obrazów RubiCap przewyższył konkurencję przy 32 mld i nawet 72 mld parametrach. W niektórych przypadkach RubiCap‑3B osiągał lepsze wyniki niż RubiCap‑7B, potwierdzając, że rozmiar modelu nie zawsze gwarantuje wyższą wydajność.

W ten sposób technologia RubiCap pokazuje, jak można uzyskać wysoką jakość opisów obrazów przy mniejszych zasobach i bardziej efektywnym uczeniu.

Komentarze (0)

Podziel się swoją opinią — prosimy o uprzejmość i trzymanie się tematu.

Nie ma jeszcze komentarzy. Zostaw komentarz i podziel się swoją opinią!

Aby dodać komentarz, zaloguj się.

Zaloguj się, aby komentować