Iluzja „Pobierz więcej etykiet!” w badaniach nad sztuczną inteligencją

Jak ulepszyć adnotacje w zbiorach danych AI? Wyzwania i nowe podejścia Współczesne badania nad uczeniem maszynowym sugerują, że samo uczenie maszynowe może pomóc w poprawie jakości adnotacji w zbiorach danych AI – szczególnie w opisach obrazów używanych w modelach wizyjno-językowych (VLM). To podejście wynika z wysokich kosztów związanych z ręcznym oznaczaniem danych oraz trudności w […]

Jak ulepszyć adnotacje w zbiorach danych AI? Wyzwania i nowe podejścia

Współczesne badania nad uczeniem maszynowym sugerują, że samo uczenie maszynowe może pomóc w poprawie jakości adnotacji w zbiorach danych AI – szczególnie w opisach obrazów używanych w modelach wizyjno-językowych (VLM). To podejście wynika z wysokich kosztów związanych z ręcznym oznaczaniem danych oraz trudności w nadzorowaniu pracy osób tworzących adnotacje.

Można to porównać do popularnego w latach 2000. mema „ściągnij więcej RAM-u”, który żartobliwie sugerował, że problemy sprzętowe da się rozwiązać za pomocą oprogramowania.

Kwestia ta jest często pomijana – podczas gdy nowe modele AI przyciągają uwagę mediów i biznesu, proces oznaczania danych wydaje się mało istotny w porównaniu z bardziej spektakularnymi aspektami uczenia maszynowego.

Tymczasem zdolność systemów AI do rozpoznawania i odtwarzania wzorców (podstawa działania większości rozwiązań AI) jest uzależniona od jakości i spójności adnotacji – opisów tworzonych przez ludzi, którzy często dokonują subiektywnych ocen w nieidealnych warunkach.

Systemy, które próbują naśladować zachowania osób oznaczających dane (aby zastąpić ludzi i przyspieszyć proces), nie radzą sobie dobrze z informacjami nieobecnymi w przykładowych danych. Nic „podobnego” nie jest tym samym, a przenoszenie wiedzy między różnymi dziedzinami wciąż pozostaje trudnym wyzwaniem w przetwarzaniu obrazów.

Ostatecznie, proces oznaczania danych musi gdzieś się kończyć – i w tym przypadku kończy się na ludzkim mózgu, który dokonuje subiektywnych rozróżnień, aby przygotować dane dla systemów AI.

RAG – nowe podejście do weryfikacji faktów

Do niedawna błędy w adnotacjach traktowano jako akceptowalny koszt w kontekście niedoskonałych, ale nadal użytecznych wyników generatywnych systemów AI.

W tym roku badanie z Singapuru wykazało, że halucynacje AI – sytuacje, w których systemy wymyślają nieprawdziwe informacje – są nieuniknione i wpisane w architekturę takich modeli.

Aby temu przeciwdziałać, popularne stają się rozwiązania oparte na RAG, które potrafią „weryfikować” fakty poprzez wyszukiwanie w internecie. Jednak zwiększają one koszty i opóźnienia w przetwarzaniu zapytań. Ponadto, nowe informacje wprowadzone do wytrenowanego modelu nie mogą konkurować z głębokimi powiązaniami obecnymi w jego oryginalnych warstwach.

Dlatego lepiej byłoby, gdyby adnotacje były od początku mniej obarczone błędami – nawet jeśli nie da się ich wyeliminować całkowicie (zwłaszcza że wkraczamy tu w sferę ludzkiej subiektywności).

RePOPE – nowe spojrzenie na jakość adnotacji

Nowa praca naukowa z Niemiec zwraca uwagę na problemy związane z korzystaniem ze starszych, popularnych zbiorów danych, szczególnie w kontekście dokładności opisów obrazów. Badacze odkryli, że błędy w oznakowaniu mogą maskować lub zniekształcać ocenę halucynacji w modelach wizyjno-językowych.

Wyobraźmy sobie, że model widzi zdjęcie ulicy i odpowiada „tak” na pytanie, czy jest na nim rower. Jeśli w zbiorze danych oznaczono, że rowera nie ma, model zostaje uznany za błędny. Ale jeśli rower jest widoczny, a został pominięty przy oznaczaniu, to model odpowiedział poprawnie, a błąd leży po stronie benchmarku. Takie błędy mogą się kumulować, zniekształcając ocenę, które modele są dokładne, a które podatne na halucynacje.

Gdy nieprawidłowe lub niejednoznaczne adnotacje traktuje się jako prawdę, modele mogą wydawać się halucynujące, gdy są poprawne – lub odwrotnie. To utrudnia diagnozowanie problemów.

Autorzy przeanalizowali popularny benchmark POPE (Polling-based Object Probing Evaluation), który sprawdza, czy modele poprawnie identyfikują obiekty na obrazach. Pope opiera się na danych z zestawu MSCOCO (Microsoft COCO: Common Objects in Context), uznawanego za względnie dokładny.

POPE ocenia halucynacje, zadając modele proste pytania tak/nie (np. „Czy na obrazie jest <obiekt>?”). Prawdziwe obiekty (odpowiedź „tak”) są zestawiane z losowymi, częstymi lub powiązanymi obiektami (odpowiedź „nie”).

W nowym badaniu „RePOPE: Impact of Annotation Errors on the POPE Benchmark” autorzy zweryfikowali oznaczenia w MSCOCO i odkryli, że wiele z nich jest błędnych lub niejasnych.

Po poprawieniu adnotacji zmieniła się klasyfikacja modeli – niektóre, które wcześniej wypadały dobrze, spadły w rankingu. Według autorów, RePOPE zapewnia bardziej wiarygodną ocenę podatności na halucynacje.

Metody i wyniki badań

Naukowcy ponownie oznakowali dane z MSCOCO, przypisując każde zadanie dwóm osobom. W przypadkach niejednoznacznych (np. gdy pluszowy miś został oznaczony jako „niedźwiedź”, a motor jako „rower”) wykluczono je z testów.

Wśród pytań oznaczonych w POPE jako „tak”, 9,3% było błędnych, a 13,8% – niejednoznacznych. Dla pytań „nie” błędy stanowiły 1,7%, a niejasności – 4,3%.

Przetestowano różne modele, w tym InternVL2.5, LLaVA-NeXT, Mistral 7b i inne. Po korekcie:

Liczba poprawnych odpowiedzi (true positives) spadła we wszystkich modelach.
Błędne odpowiedzi (false positives) wzrosły prawie dwukrotnie w przypadku losowych pytań, co sugeruje, że wiele „halucynacji” wynikało z błędów w oznakowaniu.
Wyniki F1 – kluczowy wskaźnik w POPE – znacząco się zmieniły. Niektóre modele, np. Ovis2-4B i Ovis2-8B, awansowały w rankingu.

Autorzy udostępnili poprawione dane na GitHubie, ale zauważają, że nawet RePOPE nie rozwiązuje wszystkich problemów – wiele modeli nadal osiąga ponad 90% poprawności. Sugerują uzupełnienie benchmarków o np. DASH-B, który używa trudniejszych przykładów.

Podsumowanie

Eksperyment był możliwy dzięki małej skali danych. W przypadku ogromnych zbiorów sprawdzenie jakości adnotacji byłoby znacznie trudniejsze, a nawet niemożliwe do przeprowadzenia w sposób reprezentatywny.

Nawet gdyby udało się znaleźć błędy, jak je naprawić? Potrzebujemy lepszych i bardziej obfitych adnotacji tworzonych przez ludzi. Ale „lepsze” i „więcej” to osobne wyzwania:

Większą liczbę oznaczeń można uzyskać przez tanie platformy jak Amazon Mechanical Turk (AMT), ale to często prowadzi do słabej jakości i wyzysku.
Można zlecać pracę w regionach o niższych kosztach, ale im dalej od kontekstu użycia modelu, tym większe ryzyko niezgodności z oczekiwaniami.

To jeden z najtrudniejszych nierozwiązanych problemów w rozwoju uczenia maszynowego.

Pierwsza publikacja: środa, 23 kwietnia 2025