Studenci tworzą otwarty model AI generujący podcasty
Dwóch studentów, bez dużego doświadczenia w sztucznej inteligencji, twierdzi, że opracowali ogólnodostępny model AI. Potrafi on generować nagrania przypominające podcasty, podobne do tych tworzonych przez Google NotebookLM.
Rynek syntetycznej mowy rośnie
Branża narzędzi do generowania sztucznej mowy dynamicznie się rozwija. Firma ElevenLabs jest jednym z liderów, ale ma wielu konkurentów, takich jak PlayAI czy Sesame. Inwestorzy widzą w tej technologii ogromny potencjał. Dane PitchBook wskazują, że startupy zajmujące się głosową AI zebrały w zeszłym roku ponad 398 milionów dolarów finansowania.
Początki Nari Labs
Toby Kim, współzałożyciel koreańskiego Nari Labs, przyznał, że on i jego partner dopiero trzy miesiące temu zaczęli zgłębiać tematykę sztucznej mowy. Zainspirowani NotebookLM, postanowili stworzyć model dający większą kontrolę nad generowanym głosem i "swobodę w tworzeniu skryptów".
Jak działa model Dia?
Kim wyjaśnia, że do trenowania swojego modelu o nazwie Dia wykorzystali program Google TPU Research Cloud, który zapewnia darmowy dostęp do chipów AI TPU. Dia, ważący 1,6 miliarda parametrów, potrafi generować dialogi na podstawie skryptu, pozwalając użytkownikom dostosowywać ton głosu oraz dodawać przerwy w mówieniu, kaszlnięcia, śmiech i inne dźwięki niewerbalne.
Parametry to wewnętrzne zmienne, których modele AI używają do przewidywania wyników. Zazwyczaj im więcej parametrów, tym lepsza wydajność modelu.
Dostępność i możliwości
Dia jest dostępny na platformie Hugging Face oraz GitHub. Działa na większości nowoczesnych komputerów z co najmniej 10GB pamięci VRAM. Generuje losowy głos, chyba że użytkownik poda opis pożądanego stylu. Model potrafi również klonować głosy.
Podczas krótkich testów przeprowadzonych przez TechCrunch w demo Nari, Dia sprawdził się dobrze, płynnie generując rozmowy na dowolny temat. Jakość głosów jest porównywalna z innymi narzędziami, a funkcja klonowania głosu należy do najprostszych w użyciu.
Brak zabezpieczeń i kwestie prawne
Podobnie jak wiele generatorów głosu, Dia nie ma solidnych zabezpieczeń. Można go łatwo wykorzystać do tworzenia dezinformacji lub oszukańczych nagrań. Na stronach projektu Nari przestrzega przed nadużyciami, ale zaznacza, że nie ponosi odpowiedzialności za niewłaściwe wykorzystanie modelu.
Nari nie ujawniło też, jakie dane zostały użyte do trenowania Dia. Istnieje podejrzenie, że mogły to być materiały chronione prawem autorskim – jeden z komentatorów na Hacker News zauważył, że przykładowy głos brzmi jak prowadzący podcast NPR "Planet Money". Trenowanie modeli na chronionych treściach jest powszechne, ale budzi wątpliwości prawne.
Plany na przyszłość
Kim zapowiada, że Nari chce zbudować platformę do syntetycznej mowy z "aspektem społecznym", opartą na Dia i przyszłych, większych modelach. Firma planuje też opublikować raport techniczny dotyczący Dia oraz dodać obsługę języków innych niż angielski.