Model sztucznej inteligencji o3 firmy OpenAI uzyskał w teście porównawczym niższe wyniki niż początkowo sugerowała firma

Różnice w testach modelu OpenAI o3 wzbudzają wątpliwości Rozbieżności między wynikami benchmarków pierwszej i trzeciej strony dotyczącymi modelu AI o3 od OpenAI podważają zaufanie do przejrzystości firmy oraz jej praktyk testowych. Nieoczekiwane różnice w wynikach Gdy OpenAI zaprezentowało model o3 w grudniu, twierdziło, że rozwiązuje on ponad 25% zadań w zestawie FrontierMath – trudnych problemów […]

Różnice w testach modelu OpenAI o3 wzbudzają wątpliwości

Rozbieżności między wynikami benchmarków pierwszej i trzeciej strony dotyczącymi modelu AI o3 od OpenAI podważają zaufanie do przejrzystości firmy oraz jej praktyk testowych.

Nieoczekiwane różnice w wynikach

Gdy OpenAI zaprezentowało model o3 w grudniu, twierdziło, że rozwiązuje on ponad 25% zadań w zestawie FrontierMath – trudnych problemów matematycznych. Wynik ten znacznie przewyższał konkurencję, gdzie inne modele radziły sobie z zaledwie 2% zadań.

"Obecnie wszystkie dostępne rozwiązania osiągają poniżej 2% na FrontierMath" – mówił Mark Chen, dyrektor ds. badań w OpenAI, podczas transmisji na żywo. "W naszych wewnętrznych testach, przy zwiększonych zasobach obliczeniowych, o3 osiąga ponad 25%."

Jak się jednak okazało, był to raczej maksymalny wynik, osiągany przez wersję modelu z większą mocą obliczeniową niż ta, którą udostępniono publicznie.

Niezależne testy Epoch AI

Epoch AI, instytut badawczy stojący za FrontierMath, opublikował w piątek własne wyniki testów modelu o3. Według nich, model osiągnął jedynie około 10%, znacznie poniżej deklaracji OpenAI.

OpenAI udostępniło o3, długo wyczekiwany model rozumowania, wraz z o4-mini – mniejszym i tańszym następcą o3-mini.
Przetestowaliśmy nowe modele na naszej serii benchmarków matematycznych i naukowych. Wyniki w wątku! pic.twitter.com/5gbtzkEy1B
— Epoch AI (@EpochAIResearch) 18 kwietnia 2025

Różnice w metodologii

To nie oznacza, że OpenAI celowo wprowadzało w błąd. Wyniki benchmarków opublikowane w grudniu pokazują dolny przedział, który zgadza się z obserwacjami Epoch. Instytut zaznaczył też, że ich konfiguracja testowa prawdopodobnie różniła się od tej używanej przez OpenAI, a do oceny wykorzystano zaktualizowaną wersję FrontierMath.

"Różnice w wynikach mogą wynikać z zastosowania przez OpenAI bardziej zaawansowanej struktury wewnętrznej, większej mocy obliczeniowej lub testowania na innym podzbiorze problemów (180 zadań z frontiermath-2024-11-26 zamiast 290 z frontiermath-2025-02-28-private)" – wyjaśnił Epoch.

Potwierdzenie ze strony ARC Prize

Według ARC Prize Foundation, organizacji testującej wersję przedpremierową o3, publicznie udostępniony model "jest inny [...] dostosowany do zastosowań czatowych/produktowych", co potwierdza ustalenia Epoch.

"Wszystkie publiczne wersje o3 mają mniejszą moc obliczeniową niż model, który testowaliśmy" – napisał ARC Prize. Zazwyczaj modele o większej mocy osiągają lepsze wyniki benchmarków.

Kolejne modele w drodze

Choć publiczna wersja o3 nie spełnia obietnic OpenAI, jest to w pewnym stopniu nieistotne, ponieważ modele o3-mini-high i o4-mini przewyższają o3 na FrontierMath, a firma zapowiedziała wydanie mocniejszej wersji o3-pro w nadchodzących tygodniach.

To jednak kolejny przypadek, który przypomina, że wyniki benchmarków AI nie powinny być traktowane bezkrytycznie – szczególnie gdy pochodzą od firm oferujących komercyjne rozwiązania.

Problemy z przejrzystością w branży AI

"Kontrowersje" związane z benchmarkami stają się coraz częstsze w przemyśle AI, gdzie firmy rywalizują o nagłówki i uwagę użytkowników.

W styczniu Epoch krytykowano za opóźnienie w ujawnieniu finansowania przez OpenAI aż do premiery o3. Wielu naukowców zaangażowanych w FrontierMath nie zostało poinformowanych o tym związku.

W lutym xAI Elona Muska oskarżono o publikację mylących wykresów benchmarków dla modelu Grok 3. W kwietniu Meta przyznała, że chwaliła się wynikami wersji modelu innej niż udostępniona deweloperom.