Newsy AI
28 kwietnia, 2025

Naprawianie ograniczonego zrozumienia luster i odbić przez modele dyfuzyjne

AI a fizyka: wyzwania w modelowaniu odbić i praw natury Od momentu, gdy generatywna sztuczna inteligencja wzbudziła szerokie zainteresowanie, badacze zajmujący się przetwarzaniem obrazu skupili się na tworzeniu modeli AI zdolnych do rozumienia i odwzorowywania praw fizyki. Jednak nauczenie systemów uczenia maszynowego symulowania zjawisk takich jak grawitacja czy dynamika płynów pozostaje kluczowym wyzwaniem od co […]
Naprawianie ograniczonego zrozumienia luster i odbić przez modele dyfuzyjne

AI a fizyka: wyzwania w modelowaniu odbić i praw natury

Od momentu, gdy generatywna sztuczna inteligencja wzbudziła szerokie zainteresowanie, badacze zajmujący się przetwarzaniem obrazu skupili się na tworzeniu modeli AI zdolnych do rozumienia i odwzorowywania praw fizyki. Jednak nauczenie systemów uczenia maszynowego symulowania zjawisk takich jak grawitacja czy dynamika płynów pozostaje kluczowym wyzwaniem od co najmniej pięciu lat.

Gdy w 2022 roku modele latentnej dyfuzji (LDM) zdominowały rynek generatywnej AI, naukowcy zaczęli zwracać uwagę na ich ograniczenia w rozumieniu zjawisk fizycznych. Temat zyskał na znaczeniu wraz z pojawieniem się modelu generującego filmy Sora autorstwa OpenAI oraz otwartych rozwiązań takich jak Hunyuan Video i Wan 2.1.

Problemy z odbiciami

Większość badań nad poprawą rozumienia fizyki przez LDM koncentrowała się na symulacji ruchu, fizyce cząstek i innych aspektach dynamiki newtonowskiej. Te obszary są kluczowe, ponieważ błędy w odwzorowaniu podstawowych zachowań fizycznych natychmiast podważają wiarygodność generowanych materiałów.

Jednak część naukowców skupia się na jednej z największych słabości LDM – trudnościach w generowaniu realistycznych odbić.

Problem ten był wyzwaniem już w erze CGI i pozostaje nim w branży gier wideo, gdzie algorytmy ray-tracingu symulują drogę światła odbijającego się od powierzchni. Każdy dodatkowy odbłysk zwiększa jednak koszty obliczeniowe, zmuszając do kompromisu między dokładnością a wydajnością.

Realistyczne odbicia są kluczowe nie tylko w oczywistych scenariuszach, takich jak lustra, ale także w przypadku mokrych ulic, witryn sklepowych czy okularów noszonych przez postaci.

Wyzwania w generowaniu obrazów

Wcześniejsze rozwiązania, takie jak Neural Radiance Fields (NeRF) czy Gaussian Splatting, również zmagały się z problemem odbić. Projekty takie jak REF2-NeRF próbowały modelować zjawiska optyczne, ale wciąż pozostają niedoskonałe.

W przypadku modeli dyfuzyjnych nauczenie spójnego rozumienia logiki odbić jest szczególnie trudne, ponieważ wymaga dużej różnorodności przykładów w danych treningowych. Tradycyjne metody, takie jak LoRA czy dostrajanie modeli, nie są idealnym rozwiązaniem ze względu na ich ograniczenia.

Rozwiązanie: MirrorVerse

Jednym z niedawnych projektów mających na celu poprawę jakości odbić w modelach dyfuzyjnych jest MirrorVerse opracowany przez naukowców z Indii. Wykorzystuje on ulepszony zestaw danych i metodę treningową, która ma poprawić realistyczność generowanych odbić.

Mimo postępów, system wciąż nie jest doskonały – w niektórych przypadkach odbicia pojawiają się tam, gdzie nie powinny, lub są przesunięte względem oryginalnych obiektów. Pokazuje to, że problem może być trudny do całkowitego rozwiązania w ramach obecnych architektur LDM.

Metodologia

Naukowcy zauważyli, że obecne modele, takie jak Stable Diffusion czy Flux, mają problem z poprawnym interpretowaniem promptów dotyczących odbić. W odpowiedzi opracowali MirrorFusion 2.0 – model oparty na nowym zestawie danych MirrorGen2, który uwzględnia losowe pozycje obiektów i ich wzajemne relacje.

Proces treningowy składał się z trzech etapów, stopniowo zwiększając złożoność scen. W ostatniej fazie wykorzystano rzeczywiste dane z zestawu MSD, aby poprawić ogólną zdolność modelu do uogólniania.

Dane i testy

Zestaw danych SynMirrorV2 zawierał ponad 66 tys. obiektów 3D pochodzących z repozytoriów takich jak Objaverse i Amazon Berkeley Objects. Sceny konstruowano z wykorzystaniem teksturowanych podłoży i lustr, dbając o realistyczne oświetlenie.

Testy wykazały, że MirrorFusion 2.0 radzi sobie lepiej niż poprzednie rozwiązania, zarówno pod względem wskaźników ilościowych (PSNR, SSIM), jak i ocen użytkowników – 84% uczestników badania preferowało wyniki nowego modelu.

Podsumowanie

Choć MirrorVerse stanowi krok naprzód, podstawowe ograniczenia architektury modeli dyfuzyjnych sprawiają, że problem realistycznych odbić może nie znaleźć pełnego rozwiązania w najbliższym czasie. Dodanie większej liczby odpowiednio oznaczonych danych do treningu mogłoby pomóc, ale podobne wyzwania dotyczą wielu innych aspektów generowanych treści.

Pierwsza publikacja: 28 kwietnia 2025

Kategorie
Podziel się

Nowe aplikacje ai

Platforma prezentowa AI łącząca marki z influencerami.
Asystent do nauki AI zapewniający rozwiązania krok po kroku
Studio dla startupów tworzących rozpoznawalne marki i produkty, wykorzystujących wiedzę specjalistyczną w zakresie sztucznej inteligencji.
Platforma bankowości inwestycyjnej łącząca startupy z odpowiednimi inwestorami.
Agent SEO AI do automatyzacji badań słów kluczowych i optymalizacji treści
Platforma telemedyczna oparta na sztucznej inteligencji zapewniająca spersonalizowane informacje i zalecenia zdrowotne.

Wdrożymy dowolną automatyzację ai w twojej firmie.

ZLEĆ NAM TO!

Wdrożymy dla Ciebie tę automatyzację i otrzymasz szkolenie jak obsługiwać

  • Trwa kilka dni
  • Jednorazowa opłata 
  • Szkolenie z obsługi
szablony automatyzacji
Planeta AI 2025 
magic-wandmenu linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram