Apple opracowuje własnego asystenta AI dla iPhone'a, który potrafi uruchamiać aplikacje zamiast użytkownika
Apple opracowuje kompaktowego lokalnego agenta AI do pracy z interfejsami użytkownika
Apple pracuje nad nowym algorytmem – Ferret‑UI Lite, który potrafi „rozumieć” interfejsy aplikacji i wchodzić z nimi w interakcję w imieniu użytkownika, a wszystko to dzieje się na samym urządzeniu. Model ma 3 mln parametrów i w testach prezentuje wyniki porównywalne lub nawet przewyższające duże modele aż do 24‑krotnie większe.
Początki projektu
W grudniu 2023 roku zespół dziewięciu badaczy opublikował pracę FERRET: Refer and Ground Anything Anywhere at Any Granularity. W niej przedstawiono multimodalny model językowy, uczący się na różnych typach danych i potrafiący powiązać opis tekstowy z konkretnymi fragmentami obrazu.
Od tego czasu Apple rozszerzyła rodzinę modeli Ferret:
| Model | Zastosowanie |
|---|---|
| Ferretv2 | Ulepszona bazowa wersja |
| Ferret‑UI | Specjalistyczny MLLM do interfejsów mobilnych |
| Ferret‑UI 2 | Wsparcie dla wielu platform i wyższej rozdzielczości |
Ferret‑UI w szczególności rozwiązuje jeden z problemów współczesnych multimodalnych dużych modeli językowych (MLLM): słabo rozpoznają elementy UI. Model dodaje „dowolną rozdzielczość” na bazie Ferret, zwiększając szczegółowość obrazów i wykorzystując ulepszone cechy wizualne.
Nowe osiągnięcia
Niedawno Apple zaprezentowała dwie dodatkowe wersje:
1. Ferret‑UI Lite – lekki model z 3 mln parametrami, zoptymalizowany pod lokalny uruchomienie na urządzeniach mobilnych.
2. Ferret‑UI 2 – rozszerzona wersja, obsługująca kilka platform i wyższą rozdzielczość zrzutów ekranu.
Główna różnica Ferret‑UI Lite od dużych modeli serwerowych: zachowuje konkurencyjność przy znacznie mniejszych wymaganiach obliczeniowych.
Dlaczego to ważne
Większość istniejących agentów GUI opiera się na ogromnych modelach bazowych, ponieważ ich potężne możliwości rozumowania i planowania pozwalają osiągać wybitne wyniki w nawigacji po interfejsach graficznych. Jednak takie modele są zbyt ciężkie do uruchomienia bezpośrednio na urządzeniu.
Ferret‑UI Lite rozwiązuję ten problem, łącząc:
- Wielokrotne kluczowe komponenty i idee z treningu małych LLM;
- Rzeczywiste i syntetyczne dane z różnych obszarów GUI;
- Techniki dynamicznego kadrowania i optymalizacji jakości segmentacji interfejsu;
- Kontrolowane fine-tuning oraz uczenie wzmacniające.
W rezultacie powstał model, który praktycznie jest równy lub nawet przewyższa większych konkurencyjnych agentów GUI w zadaniach niskopoziomowego łączenia z elementami UI, rozumienia tego, co dzieje się na ekranie, wieloetapowego planowania i samoanalizy.
Komentarze (0)
Podziel się swoją opinią — prosimy o uprzejmość i trzymanie się tematu.
Zaloguj się, aby komentować