Dwóch studentów stworzyło model mowy AI, który ma konkurować z NotebookLM

Studenci tworzą otwarty model AI generujący podcasty Dwóch studentów, bez dużego doświadczenia w sztucznej inteligencji, twierdzi, że opracowali ogólnodostępny model AI. Potrafi on generować nagrania przypominające podcasty, podobne do tych tworzonych przez Google NotebookLM. Rynek syntetycznej mowy rośnie Branża narzędzi do generowania sztucznej mowy dynamicznie się rozwija. Firma ElevenLabs jest jednym z liderów, ale ma […]

Studenci tworzą otwarty model AI generujący podcasty

Dwóch studentów, bez dużego doświadczenia w sztucznej inteligencji, twierdzi, że opracowali ogólnodostępny model AI. Potrafi on generować nagrania przypominające podcasty, podobne do tych tworzonych przez Google NotebookLM.

Rynek syntetycznej mowy rośnie

Branża narzędzi do generowania sztucznej mowy dynamicznie się rozwija. Firma ElevenLabs jest jednym z liderów, ale ma wielu konkurentów, takich jak PlayAI czy Sesame. Inwestorzy widzą w tej technologii ogromny potencjał. Dane PitchBook wskazują, że startupy zajmujące się głosową AI zebrały w zeszłym roku ponad 398 milionów dolarów finansowania.

Początki Nari Labs

Toby Kim, współzałożyciel koreańskiego Nari Labs, przyznał, że on i jego partner dopiero trzy miesiące temu zaczęli zgłębiać tematykę sztucznej mowy. Zainspirowani NotebookLM, postanowili stworzyć model dający większą kontrolę nad generowanym głosem i "swobodę w tworzeniu skryptów".

Jak działa model Dia?

Kim wyjaśnia, że do trenowania swojego modelu o nazwie Dia wykorzystali program Google TPU Research Cloud, który zapewnia darmowy dostęp do chipów AI TPU. Dia, ważący 1,6 miliarda parametrów, potrafi generować dialogi na podstawie skryptu, pozwalając użytkownikom dostosowywać ton głosu oraz dodawać przerwy w mówieniu, kaszlnięcia, śmiech i inne dźwięki niewerbalne.

Parametry to wewnętrzne zmienne, których modele AI używają do przewidywania wyników. Zazwyczaj im więcej parametrów, tym lepsza wydajność modelu.

Dostępność i możliwości

Dia jest dostępny na platformie Hugging Face oraz GitHub. Działa na większości nowoczesnych komputerów z co najmniej 10GB pamięci VRAM. Generuje losowy głos, chyba że użytkownik poda opis pożądanego stylu. Model potrafi również klonować głosy.

Podczas krótkich testów przeprowadzonych przez TechCrunch w demo Nari, Dia sprawdził się dobrze, płynnie generując rozmowy na dowolny temat. Jakość głosów jest porównywalna z innymi narzędziami, a funkcja klonowania głosu należy do najprostszych w użyciu.

Brak zabezpieczeń i kwestie prawne

Podobnie jak wiele generatorów głosu, Dia nie ma solidnych zabezpieczeń. Można go łatwo wykorzystać do tworzenia dezinformacji lub oszukańczych nagrań. Na stronach projektu Nari przestrzega przed nadużyciami, ale zaznacza, że nie ponosi odpowiedzialności za niewłaściwe wykorzystanie modelu.

Nari nie ujawniło też, jakie dane zostały użyte do trenowania Dia. Istnieje podejrzenie, że mogły to być materiały chronione prawem autorskim – jeden z komentatorów na Hacker News zauważył, że przykładowy głos brzmi jak prowadzący podcast NPR "Planet Money". Trenowanie modeli na chronionych treściach jest powszechne, ale budzi wątpliwości prawne.

Plany na przyszłość

Kim zapowiada, że Nari chce zbudować platformę do syntetycznej mowy z "aspektem społecznym", opartą na Dia i przyszłych, większych modelach. Firma planuje też opublikować raport techniczny dotyczący Dia oraz dodać obsługę języków innych niż angielski.