Newsy AI

6 maja, 2025

Wykorzystanie sztucznej inteligencji do przewidywania hitów filmowych

Jak przemysł filmowy wykorzystuje uczenie maszynowe do przewidywania sukcesu filmów Choć branża filmowa i telewizyjna postrzegana jest jako kreatywna i otwarta na eksperymenty, od dawna unika ryzyka. Wysokie koszty produkcji (które mogą stracić przewagę tańszych zagranicznych lokacji, przynajmniej dla projektów z USA) oraz rozdrobniony rynek sprawiają, że niezależne firmy nie mogą sobie pozwolić na duże […]

Jak przemysł filmowy wykorzystuje uczenie maszynowe do przewidywania sukcesu filmów

Choć branża filmowa i telewizyjna postrzegana jest jako kreatywna i otwarta na eksperymenty, od dawna unika ryzyka. Wysokie koszty produkcji (które mogą stracić przewagę tańszych zagranicznych lokacji, przynajmniej dla projektów z USA) oraz rozdrobniony rynek sprawiają, że niezależne firmy nie mogą sobie pozwolić na duże straty.

Dlatego w ciągu ostatniej dekady branża coraz częściej interesuje się tym, czy uczenie maszynowe może wykryć trendy lub wzorce w reakcjach widzów na proponowane projekty filmowe i telewizyjne.

Główne źródła danych to system Nielsen (oferujący dużą skalę, choć skupiony na TV i reklamie) oraz metody oparte na próbach, takie jak grupy fokusowe, które rezygnują ze skali na rzecz precyzyjnie dobranej demografii. Do tej kategorii zaliczają się też oceny z darmowych pokazów filmów – jednak w tym momencie większość budżetu produkcji jest już wydana.

Teorie o wielkich hitach

Początkowo systemy ML wykorzystywały tradycyjne metody analizy, takie jak regresja liniowa, K-Najbliższych Sąsiadów, Stochastyczny Spadek Gradientu, Drzewa Decyzyjne i Sieci Neuronowe, często łączone w sposób bliższy przed-AI analizie statystycznej, jak w przypadku badania z 2019 roku na Uniwersytecie Centralnej Florydy, które próbowało przewidzieć sukces seriali na podstawie kombinacji aktorów i scenarzystów (oraz innych czynników):

Badanie z 2018 roku oceniało skuteczność odcinków na podstawie kombinacji postaci i/lub scenarzystów (większość odcinków była pisana przez więcej niż jedną osobę). Źródło: https://arxiv.org/pdf/1910.12589

Najbardziej zbliżonym obszarem, który jest już stosowany w praktyce (choć często krytykowany), są systemy rekomendacyjne:

Typowy proces rekomendacji wideo. Filmy w katalogu są indeksowane przy użyciu cech, które mogą być ręcznie przypisane lub automatycznie wyodrębnione. Rekomendacje generowane są w dwóch etapach: najpierw wybierane są kandydackie filmy, a następnie rankingowane na podstawie profilu użytkownika stworzonego z preferencji oglądania. Źródło: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Jednak takie podejścia analizują projekty, które już odnoszą sukces. W przypadku nowych filmów lub seriali nie jest jasne, jakie dane historyczne byłyby najbardziej przydatne – zwłaszcza że zmiany gustów publiczności oraz rozwój źródeł danych oznaczają, że rzadko dostępne są dekady spójnych informacji.

To przykład problemu "zimnego startu", gdzie systemy rekomendacyjne muszą oceniać kandydatów bez danych o wcześniejszych interakcjach. Tradycyjne filtrowanie współpracujące zawodzi, ponieważ opiera się na wzorcach zachowań użytkowników (np. oglądanie, ocenianie, udostępnianie). Problem w tym, że w przypadku większości nowych produkcji nie ma jeszcze wystarczających danych od widzów.

Comcast przewiduje

Nowy artykuł naukowy Comcast Technology AI we współpracy z George Washington University proponuje rozwiązanie tego problemu poprzez wykorzystanie modelu językowego z ustrukturyzowanymi metadanymi o niepremierowanych filmach.

Dane wejściowe obejmują obsadę, gatunek, streszczenie, klasyfikację wiekową, nastrój i nagrody, a model zwraca ranking prawdopodobnych przyszłych hitów.

Autorzy używają wyników modelu jako zastępnika zainteresowania widzów, gdy brakuje danych o zaangażowaniu, unikając w ten sposób wczesnego faworyzowania już znanych tytułów.

Krótki (trzystronicowy) artykuł pt. Przewidywanie hitów filmowych zanim się pojawią za pomocą LLM, autorstwa sześciu badaczy Comcast i jednego z GWU, stwierdza:

"Nasze wyniki pokazują, że modele językowe, wykorzystujące metadane filmowe, mogą znacznie przewyższyć metody bazowe. To podejście może służyć jako system wspomagający w wielu zastosowaniach, umożliwiając automatyczne ocenianie dużych ilości nowych treści publikowanych codziennie i tygodniowo."

"Dostarczając wczesne wnioski, zanim zespoły redakcyjne lub algorytmy zgromadzą wystarczające dane o interakcjach, LLM mogą usprawnić proces oceny treści."

"Dzięki ciągłym ulepszeniom wydajności LLM i rozwojowi agentów rekomendacyjnych, wnioski z tej pracy są wartościowe i mogą być adaptowane w wielu dziedzinach."

Jeśli metoda okaże się skuteczna, może zmniejszyć zależność branży od retrospektywnych metryk i mocno promowanych tytułów, oferując skalowalny sposób wskazywania obiecujących produkcji przed premierą. Zamiast czekać na sygnały od widzów, zespoły mogłyby otrzymywać wczesne prognozy zainteresowania oparte na metadanych, potencjalnie zwiększając ekspozycję szerszego zakresu nowości.

Metoda i dane

Autorzy opisali czteroetapowy proces: stworzenie dedykowanego zbioru danych z metadanymi niepremierowanych filmów; ustalenie modelu bazowego do porównań; ocenę odpowiednich modeli językowych z użyciem wnioskowania w języku naturalnym i predykcji opartej na osadzaniu; oraz optymalizację wyników poprzez inżynierię promptów w trybie generatywnym, z wykorzystaniem modeli Meta Llama 3.1 i 3.3.

Ponieważ, jak twierdzą autorzy, żaden publiczny zbiór danych nie pozwalał bezpośrednio przetestować hipotezy (większość kolekcji powstała przed erą LLM i brakuje w nich szczegółowych metadanych), zbudowali własny zestaw danych z platformy rozrywkowej Comcast, która obsługuje dziesiątki milionów użytkowników.

Zbiór śledzi nowo wydane filmy i to, czy stały się popularne, gdzie popularność definiowana jest przez interakcje użytkowników.

Badanie skupia się na filmach, nie serialach, a autorzy wyjaśniają:

"Skupiliśmy się na filmach, ponieważ są mniej podatne na zewnętrzną wiedzę niż seriale, co zwiększa wiarygodność eksperymentów."

Etykiety przypisano, analizując czas potrzebny tytułom na zdobycie popularności w różnych przedziałach czasowych i rozmiarach list. Model językowy otrzymywał metadane takie jak gatunek, streszczenie, ocena, epoka, obsada, ekipa, nastrój, nagrody i typy postaci.

Dla porównania użyto dwóch metod bazowych: losowego rankingu oraz modelu Popular Embedding (PE).

Projekt wykorzystywał duże modele językowe jako główną metodę rankingową, generując uporządkowane listy filmów z przewidywanymi wynikami popularności i uzasadnieniami – a te wyniki kształtowano poprzez strategie promptów, które kierowały przewidywaniami modelu za pomocą ustrukturyzowanych metadanych.

Strategia promptów przedstawiała model jako "asystenta redakcyjnego", którego zadaniem było wskazanie, które nadchodzące filmy mają największy potencjał na popularność, bazując wyłącznie na metadanych, a następnie uporządkowanie stałej listy tytułów bez dodawania nowych pozycji i zwrócenie wyniku w formacie JSON.

Każda odpowiedź zawierała ranking, przypisane wyniki popularności, uzasadnienia pozycji oraz odniesienia do wcześniejszych przykładów, które mogły wpłynąć na wynik. Te wielopoziomowe metadane miały poprawić zrozumienie kontekstu przez model i jego zdolność do przewidywania przyszłych trendów.

Testy

Eksperyment składał się z dwóch głównych etapów: najpierw przetestowano kilka wariantów modeli, aby ustalić punkt odniesienia, identyfikując wersję, która działała lepiej niż losowe rankingi.

Następnie przetestowano duże modele językowe w trybie generatywnym, porównując ich wyniki z silniejszym punktem odniesienia, co zwiększało trudność zadania.

Oznaczało to, że modele musiały pokonać system, który już wykazywał pewną zdolność przewidywania popularności filmów. Autorzy twierdzą, że taka ocena lepiej odzwierciedla warunki rzeczywiste, gdzie zespoły rzadko wybierają między modelem a przypadkiem, ale między konkurencyjnymi systemami o różnym poziomie skuteczności.

Przewaga niewiedzy

Kluczowym ograniczeniem był czas między datą odcięcia wiedzy modeli a premierami filmów. Ponieważ modele były szkolone na danych sprzed 6-12 miesięcy przed premierami, nie miały dostępu do informacji o reakcjach widowni, co zapewniało, że przewidywania opierały się wyłącznie na metadanych.

Ocena punktu odniesienia

Aby stworzyć punkt odniesienia, autorzy wygenerowali reprezentacje semantyczne metadanych filmów za pomocą trzech modeli osadzających: BERT V4; Linq-Embed-Mistral 7B; oraz Llama 3.3 70B, skwantyzowaną do 8-bitów, aby dostosować się do ograniczeń środowiska testowego.

Linq-Embed-Mistral wybrano ze względu na jego wysoką pozycję w rankingu MTEB.

Każdy model generował wektory osadzające kandydackich filmów, które następnie porównywano ze średnim osadzeniem 100 najpopularniejszych tytułów z okresu przed premierą.

Popularność określano za pomocą podobieństwa cosinusowego, gdzie wyższe wyniki wskazywały na większe przewidywane zainteresowanie. Skuteczność rankingu oceniano, mierząc poprawę względem losowego porządku.

Poprawa wydajności modeli Popular Embedding w porównaniu z losowym punktem odniesienia. Każdy model testowano z czterema konfiguracjami metadanych: V1 – tylko gatunek; V2 – tylko streszczenie; V3 – gatunek, streszczenie, klasyfikacja wiekowa, typy postaci, nastrój i epoka; V4 – V3 + obsada, ekipa i nagrody. Wyniki pokazują wpływ bogatszych metadanych na dokładność rankingu. Źródło: https://arxiv.org/pdf/2505.02693

Wyniki pokazały, że BERT V4 i Linq-Embed-Mistral 7B najlepiej identyfikowały trzy najpopularniejsze tytuły, choć oba miały niewielki problem z przewidzeniem absolutnego numeru jeden. Ostatecznie wybrano BERT jako punkt odniesienia do porównania z modelami językowymi, ponieważ jego wydajność i ogólne wyniki przeważyły nad ograniczeniami.

Ocena modeli językowych

Badacze oceniali skuteczność za pomocą dwóch podejść rankingowych: parowego (czy model poprawnie uporządkował jedną pozycję względem drugiej) i listowego (czy cała lista odzwierciedla prawdziwą popularność). Ta kombinacja pozwoliła ocenić zarówno lokalną, jak i globalną dokładność.

Użyto pełnych, niekwantyzowanych modeli, aby uniknąć utraty wydajności i zapewnić spójne porównanie między przewidywaniami LLM a punktem odniesienia.

Metryki

Aby ocenić skuteczność przewidywań, zastosowano metryki rankingowe i klasyfikacyjne, skupiając się szczególnie na identyfikacji trzech najpopularniejszych tytułów.

Użyto czterech metryk: Accuracy@1 (jak często najpopularniejszy film był na pierwszym miejscu); Reciprocal Rank (odwrotność pozycji prawdziwego numeru jeden); Znormalizowany Skumulowany Zysk (NDCG@k, oceniający dopasowanie całego rankingu); oraz Recall@3 (jaki odsetek prawdziwie popularnych filmów znalazł się w top 3).

Ponieważ większość interakcji użytkowników dzieje się na początku rankingu, skupiono się na niższych wartościach k, aby odzwierciedlić rzeczywiste zastosowania.

Poprawa wydajności dużych modeli językowych względem BERT V4, mierzona jako procentowy wzrost w różnych metrykach. Wyniki uśredniono po dziesięciu uruchomieniach dla każdej kombinacji model-prompt, z podświetleniem dwóch najlepszych wartości.

Przetestowano wydajność modeli Llama 3.1 (8B), 3.1 (405B) i 3.3 (70B), mierząc poprawę względem punktu odniesienia. Każdy model sprawdzono z serią promptów – od minimalistycznych po bogate w informacje – aby zbadać wpływ szczegółowości danych na jakość przewidywań.

Autorzy stwierdzili:

"Najlepsze wyniki osiągnięto z Llama 3.1 (405B) i najbardziej informacyjnym promptem, a następnie Llama 3.3 (70B). Obserwowany trend wskazuje, że przy złożonych promptach (MD V4) bardziej złożony model językowy generalnie poprawia wyniki w różnych metrykach. Jednak jest to wrażliwe na rodzaj dodanych informacji."

Wydajność poprawiała się, gdy w promptach uwzględniono nagrody aktorskie – w tym przypadku liczbę głównych nagród zdobytych przez pięciu głównych aktorów każdego filmu. Te bogatsze metadane były częścią najbardziej szczegółowej konfiguracji, przewyższając prostsze wersje. Korzyść była najbardziej widoczna w większych modelach, które lepiej przewidywały popularność, mając ten dodatkowy sygnał.

Dla kontrastu, najmniejszy model, Llama 3.1 (8B), poprawiał się przy nieco bardziej szczegółowych promptach (od gatunku do streszczenia), ale słabł przy większej liczbie pól, co sugeruje, że nie radził sobie ze złożonością.

Gdy prompty ograniczono tylko do gatunku, wszystkie modele wypadały gorzej niż punkt odniesienia, co pokazuje, że ubogie metadane nie wystarczają do sensownych przewidywań.

Podsumowanie

Duże modele językowe stały się symbolem generatywnej AI, co może tłumaczyć, dlaczego są stosowane w obszarach, gdzie inne metody mogłyby lepiej pasować. Mimo to wciąż wiele nie wiemy o ich możliwościach w różnych branżach, więc warto je testować.

W tym przypadku, podobnie jak w przypadku giełdy czy prognoz pogody, historyczne dane mają ograniczone zastosowanie w przewidywaniu przyszłości. W filmach i serialach sam sposób dystrybucji jest teraz zmiennym celem, w przeciwieństwie do lat 1978-2011, gdy kable, satelity i nośniki fizyczne (VHS, DVD) stanowiły przejściowe zmiany.

Żadna metoda nie jest też w stanie uwzględnić wpływu sukcesu lub porażki