De Niro po mandaryńsku

Pozwalają ożywić twarze bliskich, którzy umarli i na krótką chwilę wskrzesić nieżyjących ulubionych aktorów. Poznaj nową twarz deepfakeów. Katarzyna Bielińska

Aplikacje sterowane przez sztuczną inteligencję generującą fałszywe nagrania wideo, które wyglądają uderzająco realistycznie, robią coraz bardziej zawrotną karierę. I zdecydowanie nie mają dobrej sławy. Tempo rozprzestrzenienia się filmowych fałszywek, łatwo osiągalne i coraz doskonalsze narzędzia do ich produkcji oraz coraz większa trudność w odróżnieniu podróbek sprawiły, że konsekwencje tego zjawiska są przerażające. Oto każdy może spreparować nagranie wideo, w którym może włożyć w czyjeś usta, co tylko zechce. Trudno o bardziej wyrafinowany sposób na podburzanie nastrojów społecznych, wzniecanie politycznych huraganów, prowadzenie wojen informacyjnych czy nawet zaburzenie międzynarodowego bezpieczeństwa. Jednak zniekształcające rzeczywistość wideo imitacje można wykorzystać też w „słusznych” celach. Dzięki deepfake’om możemy przywrócić twarze zmarłych do życia, poradzić sobie z brakami kadrowymi w popularnych serialach, zobaczyć na ekranie np. Roberta de Niro biegle władającego językiem mandaryńskim… Ale od początku.

Deepfake

Simpsonowie na emeryturze

Jeśli oglądasz „Simpsonów”, na pewno nie uszło Twojej uwadze, że Harry Shearer, aktor podkładający głos pod kilka postaci (w tym tak różnych jak m.in. Mr Burns i Waylon Smithers) ogłosił, że odchodzi z serialu. „The Simpsons” są emitowani przez ponad 30 lat, a wynagrodzenie obsady aktorskiej serialu wzrosło w tym czasie z 30 tysięcy dolarów za odcinek (w 1998 roku) do 400 tysięcy dolarów (od 2008 roku). Producent serialu, Fox, postanowił obniżyć te koszty i zredukował gaże aktorskie o 30 procent. Shearer (który i tak krytykował pogarszającą się jakość serialu) odmówił podpisania nowego kontraktu. Po kilku miesiącach gwiazda spasowała i zgodziła się na renegocjację wynagrodzenia, jednak zasadniczo problem nie został rozwiązany. Aktor ma 77 lat i nie młodnieje. Również inni grający mieszkańców Springfield zbliżają się do wieku emerytalnego – w większości mają 60 lub 70 lat. To kwestia czasu, aż powiedzą twórcom „dość”. Producenci postanowili wyprzedzić ten moment i skorzystać ze sposobu na miarę naszych czasów – oprogramowania do produkcji deepfake’ów, oparte na algorytmach sztucznej inteligencji. Dzięki temu Edna Krabappel – cierpliwa nauczycielka Barta, której postać została usunięta z serialu po śmierci użyczającej jej głosu lektorki Marcii Wallace w 2013 roku – pojawiła się w finałowym odcinku na „ostatnie pożegnanie” z widzami. Do odtworzenia jej głosu użyto algorytmów, których działanie bazowało na starych nagraniach aktorki i dialogów z serialu. Efekt okazał się więcej niż dobry. Podobnie jak w przypadku cyfrowej Carrie Fisher, która „zagrała” w ostatnich dwóch częściach najnowszej trylogii „Gwiezdnych Wojen”. Obie zostały nakręcone po śmierci aktorki, a do ożywienia księżniczki Lei posłużono się wcześniej nagranym materiałem filmowym, różnego rodzaju efektami CGI (ang. computer-generated imagery) i metodami typu deepfake.

Homer jak Julia Roberts

Wzrost mocy obliczeniowej komputerów, a także coraz bardziej zaawansowane możliwości AI używanej w oprogramowaniu do tworzenia fikcyjnych nagrań audio i wideo sprawiają, że można dziś zastąpić praktycznie każdego aktora (lub postać animowaną). Jedyne, co jest potrzebne do opracowania brzmiących niczym oryginalne głosów i dialogów, to odpowiednia ilość danych treningowych do nakarmienia algorytmów, czyli po prostu wcześniejsze nagrania z udziałem tej osoby. Jak wiele „materiału źródłowego” potrzeba? Na tym polu też widać ogromny postęp. Jak powiedział magazynowi „The Wired” John Flynn, współzałożyciel brytyjskiego startupu Sonantic (który opracował metodę uczącą AI bardziej emocjonalnego mówienia, przypominającego prawdziwe dialogi toczone przez ludzi), jeszcze jakiś czas temu do osiągnięcia pożądanej jakości głosu było potrzebne od 30 do 50 godzin nagrań starych dialogów. Dziś wystarcza od 10 do20 minut ścieżek dźwiękowych.

Czy to oznacza, że producenci „The Simpsons”, dysponujący „mięskiem” do nakarmienia algorytmów pochodzącym z ponad 700 odcinków, mogliby zastąpić praktycznie całą obsadę głosową sztuczną inteligencją? Tim McSmythurs, kanadyjski badacz AI i producent mediów, który zbudował model przekształcający dowolny tekst w mowę dźwiękową w języku angielskim, jest przekonany, że tak. – Z pewnością moglibyśmy nagrać nowy odcinek odcinek Simpsonów, w którym postacie mówią w wiarygodny sposób – mówi badacz. Próbkę możliwości deepfake’ów opracowanych przez McSmythursa, można zobaczyć na jego kanale Speaking of AI na YouTube’ie.

źródło: Speaking of AI/YouTube

Na jednym z filmów widzimy spreparowaną przez Kanadyjczyka kultową scenę z filmu „Notting Hill”, w której Homer gra postać odtwarzaną przez Julię Roberts. McSmythurs nie tylko lokuje postacie z Simpsonów w znanych filmach, ale też bierze na warsztat polityków (np. Donalda Trumpa czy Joe’go Bidena) i umieszcza ich w scenach z „Simpsonów”. Dzięki tego rodzaju zabawom możemy usłyszeć głos byłego amerykańskiego prezydenta mówiącego coś, co pierwotnie powiedział Ralph Wiggum, drugoklasista uczęszczający do szkoły w Springfield, który przez swoje dziwaczne zachowanie często jest lekceważony przez rówieśników.

źródło: Speaking of AI/YouTube

Rewolucja w dubbingu

Deepfake’i rozwijają się tak intensywnie, że już wkrótce możemy mieć problemy z odróżnieniem, czy w naszym ulubionym serialu czy kreskówce mówi aktor czy to tylko imitacja jego głosu napędzana algorytmem. Głosy i postaci generowane komputerowo mogą wesprzeć kinematografię nie tylko w przypadku śmierci aktorów, braków kadrowych czy potrzeby obniżenia kosztów produkcji. Metody te mogą wkrótce zrewolucjonizować filmowy dubbing.

A jest co zmieniać. Choć przygotowywanie kopii filmów i programów telewizyjnych dla obcojęzycznej publiczności nie wygląda już tak jak w latach 70. i 80. , kiedy brak ciągłości między ustami aktora a wypowiadanymi prze niego słowami był często powodem śmiechu, dubbingowi wciąż wiele brakuje do doskonałości. Remedium na problemy z irytującym niewiarygodnym dubbigiem opracował londyński startup Flawless AI. Specjaliści od efektów wizualnych, we współpracy z naukowcami z niemieckiego Instytutu Informatyki im. Maksa Plancka, opracowali narzędzie, dzięki któremu możemy usłyszeć, jak Tom Cruise i Jack Nicholson płynnie rozmawiają po francusku w prawniczym dramacie „Ludzie honoru”, Robert DeNiro doskonale radzi sobie z językiem niemieckim w filmie „Człowiek mafii” i przekonać się jak brzmi Forrest Gump po japońsku.

Jak działa system Flawless AI, dzięki któremu gwiazdy Hollywoodu mogą biegle mówić we wszystkich językach świata i nie wywoływać salw śmiechu? Rzecz jest wyjątkowo prosta: klient dostarcza wideo z filmu lub programu telewizyjnego wraz z dubbingiem nagranym przez aktorów. Model uczenia maszynowego tworzy następnie nowe ruchy ust, które pasują do przetłumaczonej mowy i automatycznie wkleja nowe usta w twarz aktora. – Kiedy oglądamy tak zdubbingowany materiał, błędny ruch ust ani drażniące słowo nie zakłócają nam przyjemności odbioru – powiedział serwisowi The Verge Nick Lynes, współzałożyciel Flawless. Jak to działa w praktyce, możemy przekonać się na demonstracyjnym filmie:

Nostalgiczne deepfake’i

Z metody syntezy ludzkiego obrazu na bazie sztucznej inteligencji, służącej do łączenia i nakładania na wyjściowe istniejących obrazów i filmów chętnie korzystają politycy i celebryci. Można ją jednak stosować w życiu prywatnym przez każdego z nas. Izraelsko-amerykańska firma D-ID opracowała metodę Live Portrait, która dzięki systemom uczenia maszynowego, pozwala ożywić nieruchome zdjęcia – profilowe, historyczne lub portrety rodzinne, przekształcając je w krótkie obrazy wideo. Na licencji „ożywionych portretów” powstała aplikacja DeepNostalgia, która umożliwia generowanie krótkich animacji, pozwalających zobaczyć, jak poruszał się, mrugał i uśmiechał np. pradziadek czy niepoznany nigdy wujek. Aby ożywić stare zdjęcie, wystarczy wgrać je na serwer firmy MyHeritage. System odnowi zdjęcie (niezależnie od aparatu, zostało wykonane), a specjalne algorytmy, wykorzystujące m.in. informacje o pracy ludzkich mięśni twarzy), zanalizują pełną strukturę zdjęcia, a następnie stworzą realistyczny model twarzy i krótki film w formacie GIF, który można udostępniać.

Narzędzie szturmem zdobyło internet. Do tej pory użytkownicy na całym świecie za jego pomocą ożywili ponad 88 mln twarzy, a aplikacja mobilna MyHeritage dotarła na szczyt listy najczęściej pobieranych apek w sklepie App Store, deklasując nawet TikToka. Niezależnie od tego, co myślimy o idei „odnawiania więzi emocjonalnych z krewnymi” w wersji cyfrowej (wielu osobom pomysł na „ożywianie” twarzy zmarłych osób wydaje się makabryczny), jedno jest pewne: deepfake’i są w natarciu i ciekawe, czym nas jeszcze zaskoczą.