Roboty AI tracą skuteczność w długich rozmowach z ludźmi – duże badanie Microsoft potwierdziło to.
Badania Microsoft Research i Salesforce: jak duże modele AI tracą orientację w dialogach
Co badano
Jakie modele 200 000+ wieloetapowych rozmów z czołowymi LLM GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4
Kluczowe wnioski
Wskaźnik | Wynik
---|---
Dokładność przy pojedynczych zapytaniach | 90 % poprawnych odpowiedzi (GPT‑4.1, Gemini 2.5 Pro)
Dokładność w długich dialogach | ~65 % – efektywność spada prawie o jedną trzecią
Zachowanie modelu | Często „przepisuje” swój pierwszy błędny wynik jako podstawę kolejnych odpowiedzi
Długość odpowiedzi | Zwiększa się o 20‑300 % w wieloetapowych rozmowach, co prowadzi do wzrostu halucynacji i przypuszczeń
Niezawodność | Spada do 112 % (modele „zbyt wcześnie” generują odpowiedź, nie przeczytawszy zapytania)
Dlaczego tak się dzieje?
1. Przepisanie błędnej podstawy
Model trzyma się swojego pierwszego wniosku i buduje kolejne odpowiedzi na nim, nawet jeśli jest on błędny.
2. Rozszerzanie kontekstu
Z każdym nowym pytaniem dodawany jest więcej tekstu – zwiększa to liczbę „wyobrażonych” faktów, które model traktuje jako fakty.
3. Problem z tokenami myślenia
Nawet modele z dodatkowymi “tokenami” (o3, DeepSeek R1) nie potrafiły pokonać tej pułapki – wciąż generują odpowiedzi zbyt wcześnie i bez wystarczającej analizy.
Co to oznacza dla użytkowników?
- Niska niezawodność w prawdziwych rozmowach
AI może „zgubić” temat, zaczynając mówić o nieistniejących rzeczach.
- Ryzyko błędnych informacji
Rezygnacja z tradycyjnych wyszukiwarek na rzecz narzędzi generatywnych (np. Google‑AI‑recenzje) zwiększa prawdopodobieństwo otrzymania nieprawdziwych danych.
- Znaczenie wysokiej jakości podpowiedzi
Microsoft wcześniej zauważył niski poziom inżynierii przy tworzeniu zapytań. Nieudane pytania i „złe” podpowiedzi mogą być powodem, że AI nie realizuje swojego potencjału.
Wniosek
Technologia dużych modeli językowych wciąż jest w fazie rozwoju. Chociaż wykazują wysoką dokładność przy pojedynczych zapytaniach, ich niezawodność w wieloetapowych dialogach pozostaje problemem. Dla bezpiecznego i efektywnego wykorzystania AI ważne jest:
1. Pisanie jasnych, konkretnych pytań.
2. Bycie gotowym do korekty odpowiedzi modelu.
3. Nie poleganie całkowicie na generowanym treści bez weryfikacji faktów.
Ostatecznie doskonalenie modeli i zwiększanie ich odporności w długich rozmowach jest kluczem do tego, aby AI stał się niezawodnym partnerem dla użytkowników.
Komentarze (0)
Podziel się swoją opinią — prosimy o uprzejmość i trzymanie się tematu.
Zaloguj się, aby komentować