Niektórzy eksperci twierdzą, że testy porównawcze AI oparte na crowdsourcingu mają poważne wady

Laboratoria AI coraz częściej korzystają z platform crowdsourcingowych do testowania modeli Laboratoria zajmujące się sztuczną inteligencją coraz częściej wykorzystują platformy crowdsourcingowe, takie jak Chatbot Arena, aby badać mocne i słabe strony swoich najnowszych modeli. Jednak niektórzy eksperci twierdzą, że takie podejście rodzi poważne problemy z etycznego i akademickiego punktu widzenia. Popularność crowdsourcingu wśród gigantów technologicznych […]

Laboratoria AI coraz częściej korzystają z platform crowdsourcingowych do testowania modeli

Laboratoria zajmujące się sztuczną inteligencją coraz częściej wykorzystują platformy crowdsourcingowe, takie jak Chatbot Arena, aby badać mocne i słabe strony swoich najnowszych modeli. Jednak niektórzy eksperci twierdzą, że takie podejście rodzi poważne problemy z etycznego i akademickiego punktu widzenia.

Popularność crowdsourcingu wśród gigantów technologicznych

W ostatnich latach firmy takie jak OpenAI, Google i Meta zaczęły korzystać z platform, które angażują użytkowników do oceny możliwości nowych modeli. Kiedy model osiąga dobre wyniki, laboratorium często przedstawia je jako dowód na znaczący postęp.

Krytyka ze strony ekspertów

Emily Bender, profesor lingwistyki na Uniwersytecie Waszyngtońskim i współautorka książki "The AI Con", krytykuje zwłaszcza Chatbot Arena. Platforma ta prosi wolontariuszy o wybór preferowanej odpowiedzi spośród dwóch anonimowych modeli.

"Aby benchmark był wiarygodny, musi mierzyć coś konkretnego i mieć tzw. trafność teoretyczną – czyli dowody, że mierzone zjawisko jest dobrze zdefiniowane, a wyniki faktycznie odnoszą się do tego zjawiska" – wyjaśnia Bender. "Chatbot Arena nie wykazał jednak, że głosowanie na jedną odpowiedź zamiast drugiej rzeczywiście odzwierciedla preferencje, niezależnie od ich definicji."

Manipulowanie wynikami benchmarków

Asmelash Teka Hadgu, współzałożyciel firmy AI Lesan i badacz w Distributed AI Research Institute, uważa, że benchmarki takie jak Chatbot Arena są "przejęte" przez laboratoria AI, aby "promować przesadzone twierdzenia". Jako przykład podaje kontrowersje wokół modelu Llama 4 Maverick firmy Meta. Meta dostosowała wersję Maverick tak, aby osiągała dobre wyniki w Chatbot Arena, ale ostatecznie udostępniła słabszą wersję modelu.

"Benchmarki powinny być dynamiczne, a nie statyczne, rozproszone między niezależne podmioty, takie jak organizacje czy uniwersytety, oraz dostosowane do konkretnych zastosowań, np. edukacji czy ochrony zdrowia, przez specjalistów z tych dziedzin" – dodaje Hadgu.

Kwestia wynagrodzenia dla testerów

Hadgu oraz Kristine Gloria, była szefowa inicjatywy Emergent and Intelligent Technologies w Aspen Institute, argumentują, że osoby oceniające modele powinny otrzymywać wynagrodzenie. Gloria wskazuje, że branża AI powinna uczyć się na błędach branży etykietowania danych, znanej z wyzyskujących praktyk (więcej, więcej). Niektóre laboratoria również były oskarżane o podobne działania.

"Crowdsourcingowe benchmarki są wartościowe i przypominają inicjatywy nauki obywatelskiej" – mówi Gloria. "Powinny jednak być tylko jednym z wielu narzędzi oceny, bo w szybko rozwijającej się branży szybko tracą aktualność."

Rola płatnych ekspertów i wewnętrznych testów

Matt Frederikson, CEO Gray Swan AI, który organizuje crowdsourcingowe testy modeli, przyznaje, że uczestnicy korzystają z jego platformy m.in. w celu nauki nowych umiejętności (niektórzy otrzymują też nagrody pieniężne). Jednocześnie podkreśla, że publiczne benchmarki "nie zastępują" płatnych, prywatnych ocen.

"Twórcy modeli muszą też polegać na wewnętrznych testach, zespołach red teamingu i ekspertach z konkretnych dziedzin" – dodaje Frederikson. "Ważne jest też jasne komunikowanie wyników i reagowanie na wątpliwości."

Potrzeba dodatkowych metod oceny

Alex Atallah, CEO OpenRouter (platformy współpracującej z OpenAI w udostępnianiu modeli GPT-4.1), oraz Wei-Lin Chiang, doktorant UC Berkeley i współtwórca Chatbot Arena, zgadzają się, że samo testowanie modeli na otwartych platformach "nie wystarczy".

"Wspieramy również inne formy testów" – mówi Chiang. "Naszym celem jest stworzenie wiarygodnej przestrzeni, która odzwierciedla preferencje społeczności dotyczące różnych modeli AI."

Chiang twierdzi, że przypadki takie jak kontrowersje wokół Mavericka wynikają nie z wad Chatbot Arena, ale z błędnej interpretacji zasad przez laboratoria. LM Arena wprowadziła już zmiany, aby zapobiec podobnym sytuacjom w przyszłości.

"Nasza społeczność nie jest tu jako wolontariusze czy testerzy" – podsumowuje Chiang. "Ludzie korzystają z LM Arena, bo dajemy im przejrzyste miejsce do interakcji z AI i wyrażania opinii. Jeśli ranking odzwierciedla głos społeczności, chętnie go udostępniamy."