AI a fizyka: wyzwania w modelowaniu odbić i praw natury
Od momentu, gdy generatywna sztuczna inteligencja wzbudziła szerokie zainteresowanie, badacze zajmujący się przetwarzaniem obrazu skupili się na tworzeniu modeli AI zdolnych do rozumienia i odwzorowywania praw fizyki. Jednak nauczenie systemów uczenia maszynowego symulowania zjawisk takich jak grawitacja czy dynamika płynów pozostaje kluczowym wyzwaniem od co najmniej pięciu lat.
Gdy w 2022 roku modele latentnej dyfuzji (LDM) zdominowały rynek generatywnej AI, naukowcy zaczęli zwracać uwagę na ich ograniczenia w rozumieniu zjawisk fizycznych. Temat zyskał na znaczeniu wraz z pojawieniem się modelu generującego filmy Sora autorstwa OpenAI oraz otwartych rozwiązań takich jak Hunyuan Video i Wan 2.1.
Problemy z odbiciami
Większość badań nad poprawą rozumienia fizyki przez LDM koncentrowała się na symulacji ruchu, fizyce cząstek i innych aspektach dynamiki newtonowskiej. Te obszary są kluczowe, ponieważ błędy w odwzorowaniu podstawowych zachowań fizycznych natychmiast podważają wiarygodność generowanych materiałów.
Jednak część naukowców skupia się na jednej z największych słabości LDM – trudnościach w generowaniu realistycznych odbić.
Problem ten był wyzwaniem już w erze CGI i pozostaje nim w branży gier wideo, gdzie algorytmy ray-tracingu symulują drogę światła odbijającego się od powierzchni. Każdy dodatkowy odbłysk zwiększa jednak koszty obliczeniowe, zmuszając do kompromisu między dokładnością a wydajnością.
Realistyczne odbicia są kluczowe nie tylko w oczywistych scenariuszach, takich jak lustra, ale także w przypadku mokrych ulic, witryn sklepowych czy okularów noszonych przez postaci.
Wyzwania w generowaniu obrazów
Wcześniejsze rozwiązania, takie jak Neural Radiance Fields (NeRF) czy Gaussian Splatting, również zmagały się z problemem odbić. Projekty takie jak REF2-NeRF próbowały modelować zjawiska optyczne, ale wciąż pozostają niedoskonałe.
W przypadku modeli dyfuzyjnych nauczenie spójnego rozumienia logiki odbić jest szczególnie trudne, ponieważ wymaga dużej różnorodności przykładów w danych treningowych. Tradycyjne metody, takie jak LoRA czy dostrajanie modeli, nie są idealnym rozwiązaniem ze względu na ich ograniczenia.
Rozwiązanie: MirrorVerse
Jednym z niedawnych projektów mających na celu poprawę jakości odbić w modelach dyfuzyjnych jest MirrorVerse opracowany przez naukowców z Indii. Wykorzystuje on ulepszony zestaw danych i metodę treningową, która ma poprawić realistyczność generowanych odbić.
Mimo postępów, system wciąż nie jest doskonały – w niektórych przypadkach odbicia pojawiają się tam, gdzie nie powinny, lub są przesunięte względem oryginalnych obiektów. Pokazuje to, że problem może być trudny do całkowitego rozwiązania w ramach obecnych architektur LDM.
Metodologia
Naukowcy zauważyli, że obecne modele, takie jak Stable Diffusion czy Flux, mają problem z poprawnym interpretowaniem promptów dotyczących odbić. W odpowiedzi opracowali MirrorFusion 2.0 – model oparty na nowym zestawie danych MirrorGen2, który uwzględnia losowe pozycje obiektów i ich wzajemne relacje.
Proces treningowy składał się z trzech etapów, stopniowo zwiększając złożoność scen. W ostatniej fazie wykorzystano rzeczywiste dane z zestawu MSD, aby poprawić ogólną zdolność modelu do uogólniania.
Dane i testy
Zestaw danych SynMirrorV2 zawierał ponad 66 tys. obiektów 3D pochodzących z repozytoriów takich jak Objaverse i Amazon Berkeley Objects. Sceny konstruowano z wykorzystaniem teksturowanych podłoży i lustr, dbając o realistyczne oświetlenie.
Testy wykazały, że MirrorFusion 2.0 radzi sobie lepiej niż poprzednie rozwiązania, zarówno pod względem wskaźników ilościowych (PSNR, SSIM), jak i ocen użytkowników – 84% uczestników badania preferowało wyniki nowego modelu.
Podsumowanie
Choć MirrorVerse stanowi krok naprzód, podstawowe ograniczenia architektury modeli dyfuzyjnych sprawiają, że problem realistycznych odbić może nie znaleźć pełnego rozwiązania w najbliższym czasie. Dodanie większej liczby odpowiednio oznaczonych danych do treningu mogłoby pomóc, ale podobne wyzwania dotyczą wielu innych aspektów generowanych treści.
Pierwsza publikacja: 28 kwietnia 2025