Nowe badanie pokazuje, że zaawansowane modele AI mają problem z odczytywaniem czasu z zegarów analogowych
Najnowsze badania naukowców z Chin i Hiszpanii wykazały, że nawet najbardziej zaawansowane multimodalne modele AI, takie jak GPT-4.1, mają trudności z poprawnym odczytaniem czasu z obrazów zegarów analogowych. Nawet niewielkie zmiany w wyglądzie zegara mogą prowadzić do poważnych błędów interpretacji, a dostrajanie modelu pomaga tylko w przypadku znanych wcześniej przykładów. Wyniki te budzą obawy dotyczące niezawodności takich modeli w realnych zadaniach wymagających interpretacji nieznanych wcześniej obrazów.
Ludzie vs. AI - różnice w uczeniu się
Kiedy ludzie opanowują jakąś dziedzinę wiedzy, np. zasady fizyki czy grawitacji, potrafią wyjść poza konkretne przykłady i zrozumieć leżące u podstaw abstrakcje. Dzięki temu możemy kreatywnie stosować tę wiedzę w różnych kontekstach i rozpoznawać nowe sytuacje, nawet te, których wcześniej nie widzieliśmy.
Co więcej, w ważnych dla nas dziedzinach często dostrzegamy wzorce nawet tam, gdzie ich nie ma - zjawisko to nazywamy pareidolią. Nasz mózg jest tak nastawiony na rozpoznawanie wzorców, że czasem widzi je nawet tam, gdzie ich nie ma, co opisuje pojęcie apofenii.
Im wcześniej i częściej jesteśmy wystawiani na jakąś dziedzinę wiedzy, tym głębiej się ona w nas zakorzenia. Jednym z pierwszych przykładów wizualnych, z którymi spotykają się dzieci, są tarcze zegarów używane do nauki odczytywania czasu:
Pomoce naukowe służące dzieciom do nauki odczytywania czasu. Źródło: https://www.youtube.com/watch?v=IBBQXBhSNUs
Nawet gdy współczesne trendy w projektowaniu zegarków stają się coraz bardziej wymyślne (co opisuje artykuł o czytelności w projektowaniu zegarków), nasze wczesne opanowanie tej umiejętności pozwala nam rozpoznawać czas nawet na najbardziej nietypowych tarczach:
Przykłady wymagających projektów tarcz zegarkowych. Źródło: https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/
Jak pokazują badania Uniwersytetu Oksfordzkiego, ludzie nie potrzebują tysięcy przykładów, by nauczyć się odczytywać czas - wystarczy zrozumieć podstawową koncepcję. W przeciwieństwie do nas, modele AI wydają się polegać bardziej na dużej liczbie przykładów niż na prawdziwym zrozumieniu.
Problem z "rozumieniem" w modelach AI
Napięcie między powierzchowną wydajnością a prawdziwym "zrozumieniem" pojawia się w ostatnich badaniach nad dużymi modelami językowymi. W ubiegłym miesiącu naukowcy z Zhejiang University i Westlake University w swojej pracy zatytułowanej Czy modele LLM na poziomie doktoratu naprawdę rozumieją elementarne dodawanie? stwierdzili:
"Mimo imponujących wyników, modele wykazują krytyczne poleganie na dopasowywaniu wzorców, a nie na prawdziwym zrozumieniu, o czym świadczą niepowodzenia w przypadku reprezentacji symbolicznych i naruszeń podstawowych właściwości."
W tym tygodniu podobne pytania pojawiły się w pracy badawczej Nanjing University of Aeronautics and Astronautics oraz Universidad Politécnica de Madrid w Hiszpanii. Artykuł Czy multimodalne duże modeje językowe (MLLM) naprawdę nauczyły się odczytywać czas z zegarów analogowych? bada, jak dobrze multimodalne modele radzą sobie z tym zadaniem.
Wstępne testy wykazały, że multimodalny model językowy OpenAI GPT-4.1 miał problemy z poprawnym odczytaniem czasu z różnych obrazów zegarów, często myląc się nawet w prostych przypadkach.
To sugeruje lukę w danych treningowych modelu. Aby to sprawdzić, autorzy stworzyli syntetyczny zestaw danych z zegarami analogowymi, równomiernie obejmujący każdy możliwy czas, unikając typowych błędów występujących w obrazach z internetu:
Przykład z syntetycznego zestawu danych zegarów analogowych użytego do dostrojenia modelu GPT w nowej pracy. Źródło: https://huggingface.co/datasets/migonsa/analog_watches_finetune
Przed dostrojeniem GPT-4.1 zwykle nie radził sobie z odczytaniem tych zegarów. Po ekspozycji na nowy zestaw danych jego wyniki się poprawiły - ale tylko w przypadku obrazów podobnych do tych, które już widział.
Gdy kształt zegara lub styl wskazówek się zmieniał, dokładność gwałtownie spadała. Nawet niewielkie modyfikacje, takie jak cieńsze wskazówki lub groty strzałek (prawy obrazek poniżej), wystarczyły, by zmylić model. GPT-4.1 miał też problemy z interpretacją "topiących się zegarów" w stylu Dalego:
Zegary ze standardowym wyglądem (lewy), zdeformowanym kształtem (środkowy) i zmodyfikowanymi wskazówkami (prawy), wraz z czasami zwracanymi przez GPT-4.1 przed i po dostrojeniu. Źródło: https://arxiv.org/pdf/2505.10862
Autorzy wnioskują, że obecne modele takie jak GPT-4.1 uczą się odczytywania zegarów głównie poprzez dopasowywanie wzorców wizualnych, a nie dzięki głębszemu zrozumieniu koncepcji czasu:
"[GPT 4.1] zawodzi, gdy zegar jest zdeformowany lub gdy wskazówki są zmienione na cieńsze i mają grot strzałki. Średni błąd bezwzględny (MAE) w szacowaniu czasu dla 150 losowych czasów wyniósł 232,48s dla standardowych zegarów, 1380,69s przy zdeformowanym kształcie i 3726,93s przy zmienionych wskazówkach. Wyniki te sugerują, że MLLM nie nauczył się odczytywać czasu, lecz zapamiętał wzorce."
Dane treningowe i ich ograniczenia
Większość zestawów danych treningowych opiera się na obrazach z internetu, które często powtarzają określone czasy - szczególnie popularne w reklamach zegarków ustawienie 10:10:
Przykład częstego występowania czasu "dziesięć po dziesiątej" w obrazach zegarów analogowych.
W efekcie model widzi tylko wąski zakres możliwych konfiguracji zegara, co ogranicza jego zdolność do uogólniania poza te powtarzające się wzorce.
Dlaczego modele nie potrafią poprawnie interpretować zdeformowanych zegarów? W artykule czytamy:
"Choć GPT-4.1 radzi sobie wyjątkowo dobrze ze standardowymi obrazami zegarów, zaskakujące jest, że modyfikacja wskazówek poprzez ich zmniejszenie i dodanie grotów strzałek prowadzi do znaczącego spadku dokładności. Intuicyjnie można by oczekiwać, że bardziej złożona wizualnie zmiana - zdeformowana tarcza - miałaby większy wpływ na wydajność, ale ta modyfikacja wydaje się mieć stosunkowo mniejszy efekt."
Autorzy sugerują, że identyfikacja przyczyn tych niepowodzeń jest kluczowa dla rozwoju modeli multimodalnych. Jeśli problem leży w postrzeganiu kierunku przestrzennego, dostrojenie może być prostym rozwiązaniem. Ale jeśli trudność wynika z szerszego problemu w integracji wielu wskazówek wizualnych, wskazuje to na fundamentalną słabość w przetwarzaniu informacji przez te systemy.
Testy dostrajania modelu
Aby sprawdzić, czy błędy modelu można przezwyciężyć poprzez ekspozycję, GPT-4.1 został dostrojony przy użyciu wspomnianego syntetycznego zestawu danych. Przed dostrojeniem jego przewidywania były rozproszone, z dużymi błędami we wszystkich typach zegarów. Po dostrojeniu dokładność znacznie się poprawiła w przypadku standardowych tarcz i, w mniejszym stopniu, zdeformowanych.
Jednak zegary ze zmodyfikowanymi wskazówkami wciąż powodowały duże błędy. Wystąpiły dwa odrębne tryby niepowodzeń: w przypadku normalnych i zdeformowanych zegarów model zazwyczaj błędnie oceniał kierunek wskazówek; ale przy zmienionym stylu wskazówek często mylił funkcje poszczególnych wskazówek, np. biorąc godzinową za minutową.
Porównanie ilustrujące początkową słabość modelu i częściową poprawę osiągniętą poprzez dostrojenie, pokazujące przewidywany vs. rzeczywisty czas w sekundach dla 150 losowo wybranych zegarów. Po lewej - przed dostrojeniem przewidywania GPT-4.1 są rozproszone i często dalekie od prawidłowych wartości. Po prawej - po dostrojeniu na zrównoważonym syntetycznym zestawie danych przewidywania są znacznie bliższe rzeczywistości, choć niektóre błędy pozostają.
To sugeruje, że model nauczył się kojarzyć cechy wizualne, takie jak grubość wskazówek, z konkretnymi funkcjami, i miał trudności, gdy te wskazówki się zmieniały. Ograniczona poprawa w przypadku nieznanych projektów budzi dalsze wątpliwości, czy model tego rodzaju uczy się abstrakcyjnej koncepcji odczytywania czasu, czy tylko udoskonala dopasowywanie wzorców.
Znaczenie rozpoznawania wskazówek
Chociaż dostrojenie poprawiło wydajność GPT-4.1 w przypadku konwencjonalnych zegarów analogowych, miało znacznie mniejszy wpływ na zegary z cieńszymi wskazówkami lub w kształcie grotów strzałek. To sugeruje, że niepowodzenia modelu wynikały mniej z abstrakcyjnego rozumowania, a bardziej z dezorientacji co do tego, która wskazówka jest która.
Aby sprawdzić, czy dokładność może się poprawić po wyeliminowaniu tego zamieszania, przeprowadzono nową analizę przewidywań modelu dla zestawu danych ze "zmodyfikowanymi wskazówkami". Wyniki podzielono na dwie grupy: przypadki, w których GPT-4.1 poprawnie rozpoznał wskazówki godzinowe, minutowe i sekundowe; oraz przypadki, w których tego nie zrobił.
Przewidywania oceniono pod kątem średniego błędu bezwzględnego (MAE) przed i po dostrojeniu, a wyniki porównano z tymi dla standardowych zegarów. Zmierzono również błąd kątowy dla każdej wskazówki:
Porównanie błędów dla zegarów z zamieszaniem co do ról wskazówek i bez niego w zestawie danych ze zmodyfikowanymi wskazówkami przed i po dostrojeniu.
Błąd kątowy według typu wskazówki dla przewidywań z zamieszaniem co do ról wskazówek i bez niego, przed i po dostrojeniu, w zestawie danych ze zmodyfikowanymi wskazówkami.
Zamieszanie co do ról wskazówek zegara prowadziło do największych błędów. Gdy GPT-4.1 pomylił wskazówkę godzinową z minutową lub odwrotnie, wynikowe oszacowania czasu były często dalekie od prawdy. Dla porównania, błędy spowodowane błędną oceną kierunku poprawnie zidentyfikowanej wskazówki były mniejsze. Wśród trzech wskazówek, wskazówka godzinowa wykazywała największy błąd kątowy przed dostrojeniem, podczas gdy wskazówka sekundowa - najmniejszy.
Aby skupić się wyłącznie na błędach kierunkowych, analizę ograniczono do przypadków, w których model poprawnie zidentyfikował funkcję każdej wskazówki. Gdyby model przyswoił sobie ogólną koncepcję odczytywania czasu, jego wydajność w tych przykładach powinna była dorównywać dokładności w przypadku standardowych zegarów. Tak się nie stało, a dokładność pozostawała zauważalnie gorsza.
Aby zbadać, czy kształt wskazówki zakłócał poczucie kierunku modelu, przeprowadzono drugi eksperyment: stworzono dwa nowe zestawy danych, każdy zawierający sześćdziesiąt syntetycznych zegarów z tylko jedną wskazówką godzinową, wskazującą na różne minuty. Jeden zestaw używał oryginalnego projektu wskazówki, a drugi zmodyfikowanej wersji. Model poproszono o nazwanie znacznika, na który wskazywała wskazówka.
Wyniki wykazały niewielki spadek dokładności przy zmodyfikowanych wskazówkach, ale niewystarczający, by wyjaśnić szersze niepowodzenia modelu. Pojedyncza nieznana cecha wizualna wydawała się zdolna zakłócić ogólną interpretację modelu, nawet w zadaniach, z którymi wcześniej sobie radził.
Przegląd wydajności GPT-4.1 przed i po dostrojeniu w przypadku standardowych, zdeformowanych i zegarów ze zmodyfikowanymi wskazówkami, podkreślający nierównomierne postępy i utrzymujące się słabości.
Podsumowanie
Choć temat artykułu może wydawać się na pierwszy rzut oka błahy, nie chodzi tak naprawdę o to, czy modele wizyjno-językowe kiedykolwiek nauczą się w 100% poprawnie odczytywać zegary analogowe. Znaczenie tej pracy leży w skupieniu się na głębszym, powracającym pytaniu: czy nasycenie modeli większą (i bardziej zróżnicowaną) ilością danych może prowadzić do rodzaju zrozumienia domeny, jakie ludzie osiągają poprzez abstrakcję i uogólnianie; czy jedyną możliwą drogą jest zalanie domeny wystarczającą liczbą przykładów, by przewidzieć każdą prawdopodobną wariację podczas wnioskowania.
Każda z tych dróg budzi wątpliwości co do tego, czego obecne architektury są naprawdę w stanie się nauczyć.
Pierwsza publikacja: poniedziałek, 19 maja 2025