Apple opracowuje własnego asystenta AI dla iPhone'a, który potrafi uruchamiać aplikacje zamiast użytkownika

Apple opracowuje własnego asystenta AI dla iPhone'a, który potrafi uruchamiać aplikacje zamiast użytkownika

5 hardware

Apple opracowuje kompaktowego lokalnego agenta AI do pracy z interfejsami użytkownika

Apple pracuje nad nowym algorytmem – Ferret‑UI Lite, który potrafi „rozumieć” interfejsy aplikacji i wchodzić z nimi w interakcję w imieniu użytkownika, a wszystko to dzieje się na samym urządzeniu. Model ma 3 mln parametrów i w testach prezentuje wyniki porównywalne lub nawet przewyższające duże modele aż do 24‑krotnie większe.

Początki projektu
W grudniu 2023 roku zespół dziewięciu badaczy opublikował pracę FERRET: Refer and Ground Anything Anywhere at Any Granularity. W niej przedstawiono multimodalny model językowy, uczący się na różnych typach danych i potrafiący powiązać opis tekstowy z konkretnymi fragmentami obrazu.

Od tego czasu Apple rozszerzyła rodzinę modeli Ferret:

ModelZastosowanie
Ferretv2Ulepszona bazowa wersja
Ferret‑UISpecjalistyczny MLLM do interfejsów mobilnych
Ferret‑UI 2Wsparcie dla wielu platform i wyższej rozdzielczości

Ferret‑UI w szczególności rozwiązuje jeden z problemów współczesnych multimodalnych dużych modeli językowych (MLLM): słabo rozpoznają elementy UI. Model dodaje „dowolną rozdzielczość” na bazie Ferret, zwiększając szczegółowość obrazów i wykorzystując ulepszone cechy wizualne.

Nowe osiągnięcia
Niedawno Apple zaprezentowała dwie dodatkowe wersje:

1. Ferret‑UI Lite – lekki model z 3 mln parametrami, zoptymalizowany pod lokalny uruchomienie na urządzeniach mobilnych.
2. Ferret‑UI 2 – rozszerzona wersja, obsługująca kilka platform i wyższą rozdzielczość zrzutów ekranu.

Główna różnica Ferret‑UI Lite od dużych modeli serwerowych: zachowuje konkurencyjność przy znacznie mniejszych wymaganiach obliczeniowych.

Dlaczego to ważne
Większość istniejących agentów GUI opiera się na ogromnych modelach bazowych, ponieważ ich potężne możliwości rozumowania i planowania pozwalają osiągać wybitne wyniki w nawigacji po interfejsach graficznych. Jednak takie modele są zbyt ciężkie do uruchomienia bezpośrednio na urządzeniu.

Ferret‑UI Lite rozwiązuję ten problem, łącząc:

- Wielokrotne kluczowe komponenty i idee z treningu małych LLM;
- Rzeczywiste i syntetyczne dane z różnych obszarów GUI;
- Techniki dynamicznego kadrowania i optymalizacji jakości segmentacji interfejsu;
- Kontrolowane fine-tuning oraz uczenie wzmacniające.

W rezultacie powstał model, który praktycznie jest równy lub nawet przewyższa większych konkurencyjnych agentów GUI w zadaniach niskopoziomowego łączenia z elementami UI, rozumienia tego, co dzieje się na ekranie, wieloetapowego planowania i samoanalizy.

Komentarze (0)

Podziel się swoją opinią — prosimy o uprzejmość i trzymanie się tematu.

Nie ma jeszcze komentarzy. Zostaw komentarz i podziel się swoją opinią!

Aby dodać komentarz, zaloguj się.

Zaloguj się, aby komentować