Nowe modele AI OpenAI – więcej błędów i wyzwań
OpenAI niedawno wprowadziło na rynek modele sztucznej inteligencji o3 i o4-mini, które w wielu aspektach są nowoczesne. Niestety, nowe modele wciąż mają tendencję do "halucynacji", czyli wymyślania nieprawdziwych informacji – w rzeczywistości robią to częściej niż starsze modele OpenAI.
Problem halucynacji w AI
Halucynacje to jeden z największych i najtrudniejszych do rozwiązania problemów w dziedzinie sztucznej inteligencji, dotykający nawet najlepsze obecnie dostępne systemy. Dotychczas każdy nowy model wykazywał nieco mniejszą skłonność do halucynacji niż jego poprzednik. Jednak w przypadku o3 i o4-mini ta tendencja się nie potwierdza.
Wyniki testów OpenAI
Zgodnie z wewnętrznymi testami OpenAI, modele o3 i o4-mini, określane jako "modele wnioskujące", halucynują częściej niż poprzednie modele wnioskujące firmy (o1, o1-mini i o3-mini) oraz tradycyjne modele, takie jak GPT-4o. Co gorsza, OpenAI nie wie dokładnie, dlaczego tak się dzieje.
W swoim raporcie technicznym OpenAI przyznaje, że potrzebne są dalsze badania, aby zrozumieć, dlaczego halucynacje nasilają się wraz z rozwojem modeli wnioskujących. O3 i o4-mini radzą sobie lepiej w niektórych obszarach, takich jak zadania związane z kodowaniem i matematyką. Jednak ponieważ "tworzą więcej twierdzeń ogółem", częściej generują zarówno trafne, jak i błędne odpowiedzi.
Porównanie wyników
OpenAI wykazało, że o3 halucynował w odpowiedzi na 33% pytań w benchmarku PersonQA, który mierzy dokładność wiedzy modelu na temat ludzi. To prawie dwukrotnie więcej niż wcześniejsze modele wnioskujące – o1 (16%) i o3-mini (14,8%). O4-mini wypadł jeszcze gorzej, halucynując w 48% przypadków.
Niezależne testy
Organizacja Transluce, non-profit zajmująca się badaniem AI, również zauważyła, że o3 ma tendencję do wymyślania działań, które rzekomo podjął podczas generowania odpowiedzi. Na przykład model twierdził, że uruchomił kod na MacBooku Pro z 2021 roku "poza ChatGPT", a następnie skopiował wyniki do swojej odpowiedzi – co jest niemożliwe, ponieważ o3 nie ma takich możliwości.
Potencjalne przyczyny
Neil Chowdhury, badacz z Transluce i były pracownik OpenAI, sugeruje, że rodzaj uczenia ze wzmocnieniem stosowany w modelach z serii o może nasilać problemy, które zwykle są łagodzone w standardowych procesach szkoleniowych.
Sarah Schwettmann, współzałożycielka Transluce, dodaje, że wysoki wskaźnik halucynacji może ograniczać przydatność modelu o3.
Opinie praktyków
Kian Katanforoosh, wykładowca Stanforda i CEO startupu Workera, potwierdza, że jego zespół testuje o3 w zadaniach związanych z kodowaniem i uważa go za lepszego od konkurencji. Jednak model często podaje nieprawidłowe linki, które nie działają po kliknięciu.
Konsekwencje dla biznesu
Halucynacje mogą pomagać modelom w generowaniu kreatywnych pomysłów, ale jednocześnie utrudniają ich zastosowanie w branżach, gdzie precyzja jest kluczowa. Na przykład kancelaria prawna nie byłaby zadowolona z modelu, który wprowadza błędy faktograficzne do umów klientów.
Potencjalne rozwiązania
Jednym z obiecujących sposobów na poprawę dokładności modeli jest wyposażenie ich w możliwość wyszukiwania w internecie. GPT-4o z wyszukiwaniem osiąga 90% dokładności w benchmarku SimpleQA. Wyszukiwanie mogłoby również zmniejszyć skłonność do halucynacji w modelach wnioskujących – przynajmniej w przypadkach, gdy użytkownicy zgadzają się na udostępnienie zapytań zewnętrznym dostawcom wyszukiwarek.
Wyzwania na przyszłość
Jeśli rozwój modeli wnioskujących rzeczywiście prowadzi do zwiększenia halucynacji, znalezienie rozwiązania stanie się jeszcze pilniejsze.
Niko Felix, rzecznik OpenAI, potwierdza, że walka z halucynacjami we wszystkich modelach firmy to ciągły obszar badań, a zespół stale pracuje nad poprawą ich dokładności i niezawodności.
Zmiana trendów w branży AI
W ostatnim roku branża AI skupiła się na modelach wnioskujących, ponieważ tradycyjne metody ulepszania modeli zaczęły przynosić mniejsze korzyści. Modele wnioskujące poprawiają wydajność bez konieczności wykorzystywania ogromnych mocy obliczeniowych i danych podczas szkolenia. Jednak mogą też prowadzić do większej liczby halucynacji, co stanowi nowe wyzwanie.