Newsy AI
28 kwietnia, 2025

Naprawianie ograniczonego zrozumienia luster i odbić przez modele dyfuzyjne

AI a fizyka: wyzwania w nauczaniu modeli generatywnych zasad rzeczywistości Od momentu, gdy generatywna sztuczna inteligencja wzbudziła powszechne zainteresowanie, badania w dziedzinie komputerowego widzenia skupiły się na rozwijaniu modeli AI zdolnych do rozumienia i odwzorowywania praw fizyki. Jednak nauczenie systemów uczenia maszynowego symulowania zjawisk takich jak grawitacja czy dynamika płynów pozostaje kluczowym wyzwaniem od co […]
Naprawianie ograniczonego zrozumienia luster i odbić przez modele dyfuzyjne

AI a fizyka: wyzwania w nauczaniu modeli generatywnych zasad rzeczywistości

Od momentu, gdy generatywna sztuczna inteligencja wzbudziła powszechne zainteresowanie, badania w dziedzinie komputerowego widzenia skupiły się na rozwijaniu modeli AI zdolnych do rozumienia i odwzorowywania praw fizyki. Jednak nauczenie systemów uczenia maszynowego symulowania zjawisk takich jak grawitacja czy dynamika płynów pozostaje kluczowym wyzwaniem od co najmniej pięciu lat.

Od czasu, gdy modele latentnej dyfuzji (LDM) zdominowały scenę generatywnej AI w 2022 roku, naukowcy coraz częściej zwracają uwagę na ich ograniczenia w rozumieniu i odwzorowywaniu zjawisk fizycznych. Temat ten zyskał na znaczeniu wraz z pojawieniem się przełomowego modelu generującego filmy – Sora od OpenAI – oraz wydaniem otwartoźródłowych modeli wideo, takich jak Hunyuan Video czy Wan 2.1.

Problemy z odbiciami

W większości badań nad poprawą rozumienia fizyki przez LDM skupiano się na symulacji chodu, fizyce cząstek i innych aspektach ruchu newtonowskiego. Obszary te są kluczowe, ponieważ błędy w odwzorowaniu podstawowych zachowań fizycznych natychmiast podważają wiarygodność generowanych materiałów wideo.

Jednak coraz więcej uwagi poświęca się jednemu z największych słabych punktów LDM – ich ograniczonej zdolności do tworzenia realistycznych odbici.

Przykłady z badania „Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections” pokazujące typowe błędy w generowaniu odbić oraz efekty nowej metody. Źródło: https://arxiv.org/pdf/2409.14677

Problem ten był wyzwaniem już w erze CGI i pozostaje nim w branży gier wideo, gdzie algorytmy ray-tracingu symulują drogę światła odbijającego się od powierzchni. Ray-tracing oblicza, jak wirtualne promienie światła odbijają się od obiektów lub przechodzą przez nie, tworząc realistyczne odbicia, załamania i cienie.

Jednak każdy dodatkowy odbicie zwiększa koszty obliczeniowe, dlatego aplikacje działające w czasie rzeczywistym muszą balansować między dokładnością a wydajnością, ograniczając liczbę odbić.

Przykładowo, wizualizacja chromowanego czajnika przed lustrem wymagałaby wielokrotnych odbić promieni, co tworzyłoby niemal nieskończoną pętlę bez znaczącego wpływu na końcowy obraz. W większości przypadków dwa-trzy odbicia wystarczą, aby osiągnąć efekt widoczny dla obserwatora. Pojedyncze odbicie dałoby czarne lustro, ponieważ światło musi przebyć drogę przynajmniej dwukrotnie, aby powstało widoczne odbicie.

Każde dodatkowe odbicie znacząco zwiększa czas renderowania, dlatego optymalizacja tego procesu pozostaje jednym z kluczowych wyzwań w grafice ray-tracingowej.

Odbicia występują – i są kluczowe dla fotorealizmu – także w mniej oczywistych sytuacjach, takich jak mokra ulica, odbicie przeciwległej zabudowy w witrynie sklepowej czy w okularach postaci.

Podwójne odbicie osiągnięte tradycyjnymi metodami kompozycji w kultowej scenie z „Matrixa” (1999).

Wyzwania w generowaniu obrazów

Z tego powodu starsze frameworki, takie jak Neural Radiance Fields (NeRF), czy nowsze rozwiązania, np. Gaussian Splatting, również borykają się z problemem naturalnego odwzorowania odbić.

Projekt REF2-NeRF zaproponował metodę modelowania scen z szklanymi powierzchniami, wykorzystującą elementy zależne i niezależne od perspektywy obserwatora. Pozwoliło to na oddzielenie i modelowanie zarówno światła bezpośredniego, jak i odbitego.

Przykłady z badania REF2-NeRF. Źródło: https://arxiv.org/pdf/2311.17116

Inne rozwiązania dla NeRF obejmują projekty takie jak NeRFReN, Reflecting Reality czy opracowany przez Meta w 2024 roku Planar Reflection-Aware Neural Radiance Fields.

W przypadku Gaussian Splatting pojawiły się badania takie jak Mirror-3DGS, Reflective Gaussian Splatting czy RefGaussian, a projekt Nero zaproponował specjalną metodę integracji odbić z reprezentacjami neuronowymi.

MirrorVerse: nowe podejście do odbić w modelach dyfuzyjnych

Nauczenie modeli dyfuzyjnych zasad rządzących odbiciami jest trudniejsze niż w przypadku metod opartych na jawnych strukturach, takich jak Gaussian Splatting czy NeRF. W modelach dyfuzyjnych zasady te mogą zostać wiarygodnie osadzone tylko wtedy, gdy dane treningowe zawierają wiele różnorodnych przykładów odbić w różnych kontekstach, co czyni je silnie zależnymi od jakości i rozkładu początkowego zbioru danych.

Tradycyjnie dodawanie takich zachowań jest domeną LoRA lub dostrajania modelu bazowego, ale nie są to idealne rozwiązania. LoRA może nadmiernie wpływać na wyniki, a dostrajanie jest kosztowne i oddala model od oryginalnej wersji, uniemożliwiając korzystanie ze standardowych narzędzi.

Ogólnie rzecz biorąc, poprawa modeli dyfuzyjnych wymaga większej uwagi dla fizyki odbić w danych treningowych. Jednak w przypadku dużych zbiorów danych precyzyjna korekta każdego problemu jest niepraktyczna.

Mimo to pojawiają się nowe rozwiązania. Jednym z nich jest projekt MirrorVerse z Indii, oferujący ulepszony zestaw danych i metodę treningową, które mogą poprawić obecny stan techniki w tej dziedzinie.

Wyniki MirrorVerse w porównaniu z wcześniejszymi metodami (środkowe kolumny). Źródło: https://arxiv.org/pdf/2504.15397

Jak widać na powyższym przykładzie, MirrorVerse wypada lepiej niż poprzednie podejścia, ale wciąż nie jest idealny. W górnym prawym obrazku ceramiczne naczynia są nieco przesunięte, a na dolnym – gdzie odbicie nie powinno występować – widać nienaturalnie dodaną refleksję.

Dlatego przyglądamy się tej metodzie nie tyle jako przełomowi, ale aby zilustrować, jak trudnym wyzwaniem pozostają odbicia dla modeli dyfuzyjnych. Prawdopodobnie będą one nadal ustępować pod tym względem metodom takim jak NeRF, Gaussian Splatting czy tradycyjna grafika CGI.

Badanie „MirrorVerse: Pushing Diffusion Models to Realistically Reflect the World” zostało opracowane przez trzech naukowców z Vision and AI Lab, IISc Bangalore oraz Samsung R&D Institute w Bangalore. Projekt ma stronę internetową, a dane są dostępne na Hugging Face. Kod źródłowy można znaleźć na GitHubie.

Metodologia MirrorVerse

Naukowcy zauważają, że modele takie jak Stable Diffusion czy Flux mają trudności z poprawnym odwzorowaniem odbić, nawet gdy są wyraźnie o nie proszone w promptach.

Problemy z odbiciami w modelach SD3.5 i Flux.

Zespół opracował MirrorFusion 2.0 – model generatywny oparty na dyfuzji, który ma poprawić fotorealizm i dokładność geometryczną odbić w lustrach. Szkolenie modelu oparto na nowym zestawie danych MirrorGen2, zaprojektowanym, aby zaradzić słabościom wcześniejszych metod.

MirrorGen2 wprowadza losowe pozycjonowanie obiektów, randomizowane obroty oraz jawną stabilizację obiektów, aby odbicia były wiarygodne w różnych konfiguracjach. Dodatkowo zestaw danych uwzględnia sceny z wieloma obiektami, co pomaga w nauce złożonych relacji przestrzennych.

Schemat generowania danych w MirrorVerse: losowe pozycjonowanie, obroty i stabilizacja obiektów, a także ich łączenie w pary dla lepszej spójności semantycznej.

W trakcie renderowania obiekty były umieszczane na teksturowanych podłogach z CC-Textures oraz tłach z biblioteki PolyHaven, przy użyciu dużych lustrzanych powierzchni. Oświetlenie ustandaryzowano, a obiekty skalowano i pozycjonowano w sposób zapewniający ich widoczność.

Proces treningowy

Trening MirrorFusion 2.0 odbywał się w trzech etapach:

  1. Etap 1: Inicjalizacja wag na podstawie modelu Stable Diffusion v1.5 i trening na pojedynczych obiektach z MirrorGen2 przez 40 000 iteracji.
  2. Etap 2: Dostrojenie modelu na scenach z wieloma obiektami przez kolejne 10 000 iteracji, aby poprawić obsługę przesłonięć i złożonych układów.
  3. Etap 3: Ostatnie 10 000 iteracji na rzeczywistych danych z MSD dataset, z wykorzystaniem map głębi generowanych przez estymator Matterport3D.

W 20% przypadków pomijano prompty tekstowe, aby zmusić model do lepszego wykorzystania informacji o głębi. Całość trenowano na czterech GPU NVIDIA A100 z learning rate 1e-5 i batch size 4 na kartę, używając optymalizatora AdamW.

Testy i wyniki

Model porównano z poprzednią wersją (MirrorFusion) na zestawie MirrorBenchV2, a także przetestowano na danych z Google Scanned Objects (GSO) i MSD. Wyniki oceniano za pomocą metryk PSNR, SSIM, LPIPS i podobieństwa CLIP.

Porównanie wyników ilościowych dla pojedynczych i wielu obiektów. MirrorFusion 2.0 wypadł lepiej niż baseline, a wersja trenowana na wielu obiektach radziła sobie lepiej w złożonych scenach.

W testach jakościowych MirrorFusion 2.0 zachowywał poprawne orientacje obiektów i relacje przestrzenne, podczas gdy model bazowy często generował artefakty, takie jak nieprawidłowe obroty czy „lewitujące” obiekty.

Porównanie na danych GSO: MirrorFusion 2.0 zachowuje spójność geometryczną i kolorystyczną, podczas gdy baseline błędnie odwzorowuje strukturę obiektów.

Ostateczny test na rzeczywistych danych MSD wykazał, że początkowo model miał problemy ze złożonymi scenami, ale dostrojenie na części zbioru MSD znacząco poprawiło wyniki.

Wyniki na rzeczywistych scenach z MSD: MirrorFusion 2.0 lepiej radzi sobie z bałaganem na stole i wieloma lustrami w scenie 3D.

Dodatkowo przeprowadzono badanie z udziałem użytkowników, w którym 84% osób preferowało wyniki MirrorFusion 2.0 nad baseline’em.

Wyniki badania użytkowników.

Podsumowanie

Choć niektóre wyniki są imponujące, obecny stan techniki w generowaniu odbić jest na tyle słaby, że nawet umiarkowane ulepszenia mogą wydawać się znaczące. Architektura modeli dyfuzyjnych jest z natury nieprzyjazna dla spójnego odwzorowania fizyki, co czyni ten problem szczególnie trudnym.

Dodanie większej liczby odpowiednio oznaczonych danych dotyczących odbić mogłoby poprawić wyniki, ale podobne działania byłyby potrzebne także w innych obszarach, gdzie modele mają trudności. Trudno powiedzieć, który z tych problemów jest najważniejszy i zasługuje na najwięcej nakładów.

Pierwsza publikacja: poniedziałek, 28 kwietnia 2025

Kategorie
Podziel się

Nowe aplikacje ai

Platforma prezentowa AI łącząca marki z influencerami.
Asystent do nauki AI zapewniający rozwiązania krok po kroku
Studio dla startupów tworzących rozpoznawalne marki i produkty, wykorzystujących wiedzę specjalistyczną w zakresie sztucznej inteligencji.
Platforma bankowości inwestycyjnej łącząca startupy z odpowiednimi inwestorami.
Agent SEO AI do automatyzacji badań słów kluczowych i optymalizacji treści
Platforma telemedyczna oparta na sztucznej inteligencji zapewniająca spersonalizowane informacje i zalecenia zdrowotne.

Wdrożymy dowolną automatyzację ai w twojej firmie.

ZLEĆ NAM TO!

Wdrożymy dla Ciebie tę automatyzację i otrzymasz szkolenie jak obsługiwać

  • Trwa kilka dni
  • Jednorazowa opłata 
  • Szkolenie z obsługi
szablony automatyzacji
Planeta AI 2025 
magic-wandmenu linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram