EMO (Emotive Portrait Alive) is een nieuwe generatieve AI, onderzocht door Alibaba's Institute of Intelligent Computing (IIC), met het vermogen om iedere afbeelding op "magische" wijze om te zetten in realistische sprekende en zingende beelden.
Met andere woorden: de AI van Alibaba kan een statische referentieafbeelding en gesproken audio omzetten in een video die kan spreken en zingen met natuurlijke gezichtsuitdrukkingen.
Eerdere AI's konden alleen de mond en een deel van het gezicht veranderen, terwijl EMO gezichtsuitdrukkingen, natuurlijke monduitdrukkingen, precieze lipsynchronisatie, het bewegen van wenkbrauwen, fronsen van de ogen en zelfs meebewegen op de muziek kan creëren.
Alibaba heeft een aantal video's gepubliceerd waarin te zien is hoe afbeeldingen in video's worden omgezet en hoe geïmporteerde liedjes ter plekke worden gezongen. EMO ondersteunt Engels, Chinees en vele andere talen.
Alibaba maakte bekend dat EMO getraind werd met een grote hoeveelheid beeld-, audio- en videodata via een eigen diffusiemodel genaamd Audio2Video, zodat het realistische gezichtsuitdrukkingen kon creëren.
Om de huidige grote uitdaging van realisme en expressiviteit bij het genereren van videobeelden en geluiden aan te pakken, richtte het onderzoeksteam zich op de relatie en nuances tussen audiosignalen en gezichtsbewegingen. Daarbij werden de tussenliggende koppelingen tussen 3D-modellen en gezichtsherkenningspunten omzeild, frames naadloos overgegaan en de consistentie van de video behouden.
Alibaba heeft nog niet bekendgemaakt wanneer het deze AI openbaar zal maken, maar heeft de gegevens van EMO op Github gepubliceerd en onderzoeksartikelen op ArXiv geplaatst.