Newsy AI

6 maja, 2025

Wykorzystanie sztucznej inteligencji do przewidywania hitów filmowych

Branża filmowa i telewizyjna a ryzyko Choć przemysł filmowy i telewizyjny postrzegany jest jako kreatywny i otwarty na eksperymenty, od dawna unika ryzyka. Wysokie koszty produkcji (które mogą stracić przewagę tańszych zagranicznych lokalizacji, przynajmniej dla projektów z USA) oraz rozdrobniony rynek sprawiają, że niezależne firmy mają trudności z pokryciem ewentualnych strat. Dlatego w ciągu ostatniej […]

Branża filmowa i telewizyjna a ryzyko

Choć przemysł filmowy i telewizyjny postrzegany jest jako kreatywny i otwarty na eksperymenty, od dawna unika ryzyka. Wysokie koszty produkcji (które mogą stracić przewagę tańszych zagranicznych lokalizacji, przynajmniej dla projektów z USA) oraz rozdrobniony rynek sprawiają, że niezależne firmy mają trudności z pokryciem ewentualnych strat.

Dlatego w ciągu ostatniej dekady branża coraz częściej interesuje się tym, czy uczenie maszynowe może wykrywać trendy lub wzorce w reakcjach widzów na proponowane projekty filmowe i telewizyjne.

Główne źródła danych to system Nielsen (który oferuje dużą skalę, choć jego korzenie leżą w telewizji i reklamie) oraz metody oparte na próbach, takie jak grupy fokusowe, które rezygnują ze skali na rzecz starannie dobranej demografii. Do tej kategorii zaliczają się również opinie z darmowych pokazów filmów – jednak na tym etapie większość budżetu produkcji jest już wydana.

Teorie o „wielkich hitach”

Początkowo systemy ML wykorzystywały tradycyjne metody analizy, takie jak regresja liniowa, K-Najbliższych Sąsiadów, Stochastyczny Spadek Gradientu, Drzewa Decyzyjne i Sieci Neuronowe, często w kombinacjach bliższych przed-AI analizie statystycznej, jak np. inicjatywa Uniwersytetu Centralnej Florydy z 2019 roku, przewidująca sukces seriali na podstawie kombinacji aktorów i scenarzystów (oraz innych czynników):

Badanie z 2018 roku oceniało skuteczność odcinków na podstawie kombinacji postaci i/lub scenarzystów (większość odcinków była pisana przez więcej niż jedną osobę). Źródło: https://arxiv.org/pdf/1910.12589

Najbardziej zbliżonym obszarem, który jest już stosowany w praktyce (choć często krytykowanym), są systemy rekomendacyjne:

Typowy proces rekomendacji wideo. Filmy w katalogu są indeksowane przy użyciu cech, które mogą być ręcznie opisane lub automatycznie wyodrębnione. Rekomendacje generowane są w dwóch etapach: najpierw wybierane są kandydackie filmy, a następnie rankingowane na podstawie profilu użytkownika wywnioskowanego z preferencji oglądania. Źródło: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Jednak tego typu metody analizują projekty, które już odnoszą sukces. W przypadku nowych seriali lub filmów nie jest jasne, jakie dane byłyby najbardziej przydatne – zwłaszcza że zmiany gustów publiczności oraz rozwój źródeł danych oznaczają, że rzadko dostępne są dekady spójnych informacji.

To przykład problemu „zimnego startu”, gdzie systemy rekomendacyjne muszą oceniać kandydatów bez danych o wcześniejszych interakcjach. W takich przypadkach tradycyjne filtrowanie współpracujące zawodzi, ponieważ opiera się na wzorcach zachowań użytkowników (np. oglądanie, ocenianie, udostępnianie). Problem w tym, że większość nowych filmów i seriali nie ma jeszcze wystarczająco dużo informacji zwrotnych od widzów.

Comcast przewiduje

Nowy artykuł naukowy Comcast Technology AI we współpracy z George Washington University proponuje rozwiązanie tego problemu poprzez wykorzystanie modelu językowego, który analizuje ustrukturyzowane metadane o niepremierowanych filmach.

Dane wejściowe obejmują obsadę, gatunek, streszczenie, ocenę wiekową, nastrój i nagrody, a model zwraca ranking prawdopodobnych przyszłych hitów.

Autorzy wykorzystują wyniki modelu jako zastępstwo dla zainteresowania widzów, gdy brakuje danych o zaangażowaniu, unikając w ten sposób wczesnego faworyzowania już znanych tytułów.

Krótki (trzystronicowy) artykuł pt. „Przewidywanie filmowych hitów przed premierą za pomocą LLM” autorstwa sześciu badaczy Comcast Technology AI i jednego z GWU stwierdza:

„Nasze wyniki pokazują, że modele językowe, wykorzystujące metadane filmów, mogą znacznie przewyższyć metody bazowe. To podejście może służyć jako system wspomagający w wielu zastosowaniach, umożliwiając automatyczne ocenianie dużych ilości nowych treści publikowanych codziennie i tygodniowo.”

„Dostarczając wczesne wnioski, zanim zespoły redakcyjne lub algorytmy zgromadzą wystarczające dane o interakcjach, LLM mogą usprawnić proces oceny treści.”

„Dzięki ciągłej poprawie efektywności LLM i rozwojowi agentów rekomendacyjnych, wnioski z tej pracy są wartościowe i mogą być adaptowane w wielu dziedzinach.”

Jeśli podejście okaże się skuteczne, może zmniejszyć zależność branży od retrospektywnych metryk i mocno promowanych tytułów, oferując skalowalny sposób na wskazywanie obiecujących treści przed premierą. Dzięki temu zespoły redakcyjne mogłyby otrzymywać wczesne prognozy zainteresowania widzów oparte na metadanych, potencjalnie rozkładając uwagę na szerszy zakres nowości.

Metoda i dane

Autorzy opisują czteroetapowy proces: budowę dedykowanego zbioru danych z metadanych niepremierowanych filmów; ustalenie modelu bazowego do porównań; ocenę odpowiednich modeli językowych z wykorzystaniem zarówno wnioskowania w języku naturalnym, jak i predykcji opartej na osadzaniu; oraz optymalizację wyników poprzez inżynierię promptów w trybie generatywnym, z użyciem modeli Meta Llama 3.1 i 3.3.

Ponieważ, jak twierdzą autorzy, żaden publicznie dostępny zbiór danych nie pozwalał bezpośrednio przetestować ich hipotezy (większość istniejących kolekcji powstała przed erą LLM i brakuje w nich szczegółowych metadanych), stworzyli własny zestaw danych z platformy rozrywkowej Comcast, która obsługuje dziesiątki milionów użytkowników.

Zbiór danych śledzi nowo wydane filmy i to, czy stały się popularne, gdzie popularność definiowana jest przez interakcje użytkowników.

Kolekcja skupia się na filmach, a nie serialach, a autorzy wyjaśniają:

„Skupiliśmy się na filmach, ponieważ są one mniej podatne na wpływ zewnętrznej wiedzy niż seriale, co zwiększa wiarygodność eksperymentów.”

Etykiety przypisywano poprzez analizę czasu, w jakim tytuł stawał się popularny w różnych oknach czasowych i rozmiarach list. Model językowy otrzymywał metadane, takie jak gatunek, streszczenie, ocena wiekowa, epoka, obsada, ekipa, nastrój, nagrody i typy postaci.

Dla porównania użyto dwóch metod bazowych: losowego porządkowania oraz modelu Popular Embedding (PE).

Projekt wykorzystywał duże modele językowe jako główną metodę rankingową, generując uporządkowane listy filmów z przewidywanymi wynikami popularności i uzasadnieniami – a te wyniki były kształtowane przez strategie inżynierii promptów, które kierowały przewidywaniami modelu na podstawie ustrukturyzowanych metadanych.

Strategia promptów przedstawiała model jako „asystenta redakcyjnego”, którego zadaniem było wskazanie, które nadchodzące filmy mają największe szanse na popularność, wyłącznie na podstawie metadanych, a następnie uporządkowanie stałej listy tytułów bez dodawania nowych pozycji i zwrócenie wyniku w formacie JSON.

Każda odpowiedź zawierała ranking, przypisane wyniki popularności, uzasadnienia pozycji oraz odwołania do wcześniejszych przykładów, które mogły wpłynąć na wynik. Te wielopoziomowe metadane miały poprawić zrozumienie kontekstu przez model i jego zdolność do przewidywania przyszłych trendów wśród widzów.

Testy

Eksperyment składał się z dwóch głównych etapów: najpierw autorzy przetestowali kilka wariantów modelu, aby ustalić linię bazową, identyfikując wersję, która działała lepiej niż losowe porządkowanie.

Następnie przetestowali duże modele językowe w trybie generatywnym, porównując ich wyniki z silniejszą linią bazową, co zwiększało trudność zadania.

Oznaczało to, że modele musiały przewyższyć system, który już wykazywał pewną zdolność do przewidywania popularnych filmów. W rezultacie, jak twierdzą autorzy, ocena lepiej odzwierciedlała warunki rzeczywiste, gdzie zespoły redakcyjne i systemy rekomendacyjne rzadko wybierają między modelem a przypadkiem, ale między konkurującymi systemami o różnym poziomie skuteczności.

Przewaga niewiedzy

Kluczowym ograniczeniem w tym ustawieniu był okres między datą odcięcia wiedzy modeli a premierą filmów. Ponieważ modele językowe były szkolone na danych kończących się 6-12 miesięcy przed premierą, nie miały dostępu do informacji o reakcjach widzów, co zapewniało, że przewidywania opierały się wyłącznie na metadanych.

Ocena linii bazowej

Aby stworzyć linię bazową, autorzy wygenerowali reprezentacje semantyczne metadanych filmów przy użyciu trzech modeli osadzania: BERT V4, Linq-Embed-Mistral 7B oraz Llama 3.3 70B, skwantyzowaną do 8-bitów, aby spełnić ograniczenia środowiska eksperymentalnego.

Linq-Embed-Mistral został wybrany ze względu na wysoką pozycję w rankingu MTEB.

Każdy model generował wektory osadzania kandydackich filmów, które następnie porównywano ze średnim wektorem 100 najpopularniejszych tytułów z tygodni poprzedzających premierę.

Popularność określano za pomocą podobieństwa cosinusowego, gdzie wyższe wyniki wskazywały na większe przewidywane zainteresowanie. Skuteczność rankingu każdego modelu oceniano poprzez porównanie z losowym porządkowaniem.

Poprawa skuteczności modeli Popular Embedding w porównaniu z losową linią bazową. Każdy model testowano z czterema konfiguracjami metadanych: V1 (tylko gatunek), V2 (tylko streszczenie), V3 (gatunek, streszczenie, ocena wiekowa, typy postaci, nastrój, epoka) i V4 (V3 + obsada, ekipa, nagrody). Wyniki pokazują wpływ bogatszych metadanych na dokładność rankingu. Źródło: https://arxiv.org/pdf/2505.02693

Wyniki (pokazane powyżej) wykazały, że BERT V4 i Linq-Embed-Mistral 7B osiągnęły największą poprawę w identyfikacji trzech najpopularniejszych tytułów, choć oba nieco zawiodły w przewidywaniu numeru jeden.

Ostatecznie BERT został wybrany jako model bazowy do porównania z LLM, ponieważ jego efektywność i ogólne wyniki przeważyły nad ograniczeniami.

Ocena modeli językowych

Badacze oceniali skuteczność za pomocą dwóch podejść rankingowych: parowego i listowego. Ranking parowy sprawdza, czy model poprawnie porządkuje jeden element względem drugiego, a listowy ocenia dokładność całej uporządkowanej listy kandydatów.

Ta kombinacja pozwoliła ocenić nie tylko poprawność rankingu poszczególnych par filmów (dokładność lokalna), ale też to, jak dobrze cała lista odzwierciedlała rzeczywisty porządek popularności (dokładność globalna).

Użyto pełnych, niekwantowanych modeli, aby uniknąć utraty wydajności, zapewniając spójne porównanie między przewidywaniami opartymi na LLM a metodami bazowymi.

Metryki

Aby ocenić, jak dobrze modele językowe przewidują popularność filmów, użyto zarówno metryk rankingowych, jak i klasyfikacyjnych, ze szczególnym uwzględnieniem trzech najpopularniejszych tytułów.

Zastosowano cztery metryki: Accuracy@1 mierzyła, jak często najpopularniejszy film znalazł się na pierwszym miejscu; Reciprocal Rank określała pozycję najlepszego rzeczywistego filmu w rankingu; Znormalizowany Skumulowany Zysk (NDCG@k) oceniał dopasowanie całego rankingu do rzeczywistej popularności; a Recall@3 mierzył odsetek naprawdę popularnych tytułów wśród trzech pierwszych przewidywań modelu.

Ponieważ większość interakcji użytkowników dotyczy góry rankingu, ocena skupiała się na niższych wartościach k, aby odzwierciedlić praktyczne zastosowania.

Poprawa skuteczności dużych modeli językowych w porównaniu z BERT V4, mierzona jako procentowy wzrost w różnych metrykach. Wyniki uśredniono po dziesięciu uruchomieniach dla każdej kombinacji model-prompt, z podświetleniem dwóch najlepszych wartości.

Przetestowano wydajność modeli Llama 3.1 (8B), 3.1 (405B) i 3.3 (70B), mierząc poprawę względem wcześniej ustalonej linii bazowej BERT V4. Każdy model sprawdzono z serią promptów o różnym poziomie szczegółowości, aby zbadać wpływ danych wejściowych na jakość przewidywań.

Autorzy stwierdzili:

„Najlepsze wyniki osiągnięto przy użyciu Llama 3.1 (405B) z najbardziej informacyjnym promptem, a następnie Llama 3.3 (70B). Na podstawie obserwowanego trendu, gdy używa się złożonego i długiego promptu (MD V4), bardziej złożony model językowy generalnie prowadzi do poprawy we wszystkich metrykach. Jednak jest to wrażliwe na rodzaj dodanych informacji.”

Skuteczność poprawiała się, gdy w promptach uwzględniono nagrody obsady – w tym przypadku liczbę głównych nagród zdobytych przez pięciu głównych aktorów każdego filmu. Te bogatsze metadane były częścią najbardziej szczegółowej konfiguracji promptów, przewyższając prostszą wersję bez informacji o uznaniu dla aktorów. Korzyść była najbardziej widoczna w większych modelach, Llama 3.1 (405B) i 3.3 (70B), które wykazywały lepszą dokładność przewidywań przy tym dodatkowym sygnale prestiżu i rozpoznawalności.

Dla kontrastu, najmniejszy model, Llama 3.1 (8B), poprawiał się, gdy prompty stawały się nieco bardziej szczegółowe (od gatunku do streszczenia), ale tracił skuteczność przy większej liczbie pól, co sugeruje, że brakowało mu pojemności do efektywnego przetwarzania złożonych promptów.

Gdy prompty ograniczano tylko do gatunku, wszystkie modele wypadały gorzej niż linia bazowa, co pokazuje, że ubogie metadane nie wystarc