Roboty AI tracą skuteczność w długich rozmowach z ludźmi – duże badanie Microsoft potwierdziło to.

Badania Microsoft Research i Salesforce: jak duże modele AI tracą orientację w dialogach

Co badano
Jakie modele 200 000+ wieloetapowych rozmów z czołowymi LLM GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4

Kluczowe wnioski
Wskaźnik | Wynik
---|---
Dokładność przy pojedynczych zapytaniach | 90 % poprawnych odpowiedzi (GPT‑4.1, Gemini 2.5 Pro)
Dokładność w długich dialogach | ~65 % – efektywność spada prawie o jedną trzecią
Zachowanie modelu | Często „przepisuje” swój pierwszy błędny wynik jako podstawę kolejnych odpowiedzi
Długość odpowiedzi | Zwiększa się o 20‑300 % w wieloetapowych rozmowach, co prowadzi do wzrostu halucynacji i przypuszczeń
Niezawodność | Spada do 112 % (modele „zbyt wcześnie” generują odpowiedź, nie przeczytawszy zapytania)

Dlaczego tak się dzieje?
1. Przepisanie błędnej podstawy
Model trzyma się swojego pierwszego wniosku i buduje kolejne odpowiedzi na nim, nawet jeśli jest on błędny.

2. Rozszerzanie kontekstu
Z każdym nowym pytaniem dodawany jest więcej tekstu – zwiększa to liczbę „wyobrażonych” faktów, które model traktuje jako fakty.

3. Problem z tokenami myślenia
Nawet modele z dodatkowymi “tokenami” (o3, DeepSeek R1) nie potrafiły pokonać tej pułapki – wciąż generują odpowiedzi zbyt wcześnie i bez wystarczającej analizy.

Co to oznacza dla użytkowników?
- Niska niezawodność w prawdziwych rozmowach
AI może „zgubić” temat, zaczynając mówić o nieistniejących rzeczach.

- Ryzyko błędnych informacji
Rezygnacja z tradycyjnych wyszukiwarek na rzecz narzędzi generatywnych (np. Google‑AI‑recenzje) zwiększa prawdopodobieństwo otrzymania nieprawdziwych danych.

- Znaczenie wysokiej jakości podpowiedzi
Microsoft wcześniej zauważył niski poziom inżynierii przy tworzeniu zapytań. Nieudane pytania i „złe” podpowiedzi mogą być powodem, że AI nie realizuje swojego potencjału.

Wniosek
Technologia dużych modeli językowych wciąż jest w fazie rozwoju. Chociaż wykazują wysoką dokładność przy pojedynczych zapytaniach, ich niezawodność w wieloetapowych dialogach pozostaje problemem. Dla bezpiecznego i efektywnego wykorzystania AI ważne jest:

1. Pisanie jasnych, konkretnych pytań.
2. Bycie gotowym do korekty odpowiedzi modelu.
3. Nie poleganie całkowicie na generowanym treści bez weryfikacji faktów.

Ostatecznie doskonalenie modeli i zwiększanie ich odporności w długich rozmowach jest kluczem do tego, aby AI stał się niezawodnym partnerem dla użytkowników.

Roboty AI tracą skuteczność w długich rozmowach z ludźmi – duże badanie Microsoft potwierdziło to.

Related news

Apple‑Car mógłby wyglądać tak: Ferrari prezentuje wnętrze elektrycznego samochodu Luce, zaprojektowanego przez Joniego Aiva

Sprzedaż Mortal Kombat 1 przekroczyła 8 milionów egzemplarzy, ale rekord poprzedniej gry wciąż pozostaje nieosiągalny

Tesla uruchomiła kampanię przeciwko „oszukańczym” metodom aktywacji autopilota w regionach, gdzie jego użycie jest zakazane.

Według szefa Dell, w ciągu pięciu lat popyt na pamięć wzrośnie ponad 600‑krotnie dzięki rosnącemu zapotrzebowaniu na AI.

Komentarze (0)

Zaloguj się, aby komentować

Roboty AI tracą skuteczność w długich rozmowach z ludźmi – duże badanie Microsoft potwierdziło to.

Related news

Apple‑Car mógłby wyglądać tak: Ferrari prezentuje wnętrze elektrycznego samochodu Luce, zaprojektowanego przez Joniego Aiva

Sprzedaż Mortal Kombat 1 przekroczyła 8 milionów egzemplarzy, ale rekord poprzedniej gry wciąż pozostaje nieosiągalny

Tesla uruchomiła kampanię przeciwko „oszukańczym” metodom aktywacji autopilota w regionach, gdzie jego użycie jest zakazane.

Według szefa Dell, w ciągu pięciu lat popyt na pamięć wzrośnie ponad 600‑krotnie dzięki rosnącemu zapotrzebowaniu na AI.

Zaloguj się, aby komentować

Sprzedaż Mortal Kombat 1 przekroczyła 8 milionów egzemplarzy, ale rekord poprzedniej gry wciąż pozostaje nieosiągalny