Quand l’intelligence artificielle s’improvise scénariste

Être capable de reproduire le timbre d’une voix, son intonation ou les émotions qu’elle véhicule, c’est l’ambition de Vall-E, le projet d’intelligence artificielle dévoilé récemment par Microsoft. Bref, après Dall-E 2, un programme capable de générer des images, ou encore ChatGPT, un logiciel entraîné pour générer de la repartie sous forme de texte, un logiciel veut imiter notre voix et même recomposer celle de célébrités disparues.

Quand l’intelligence artificielle s’improvise scénariste

Les créateurs de cette technologie indiquent que l’outil n’a besoin que d’une écoute de trois secondes de la voix à imiter pour lui faire dire à peu près n’importe quoi. Chaque échantillon acoustique et textuel est minutieusement assemblé afin de correspondre le plus étroitement possible au timbre original : l’idée est de produire à grande échelle ce que l’Ircam avait réussi, dès 2014, avec la voix d’André Dussollier. Si l’outil n’est pas encore accessible au grand public, quelques exemples d’imitation, tous en anglais, ont été rendus publics par Microsoft sur son site GitHub. Le résultat est bluffant.

La reconstitution de la voix intéresse également d’autres start-up, comme l’américaine Synthetic Voices, qui a permis de recréer la voix de Steve Jobs, ou encore comme Eleven Labs, une entreprise britannique fondée par l’ancien ingénieur de Google Piotr Dabkowski et par l’ex-cadre de Palantir Mati Staniszewski.

Quand l’intelligence artificielle s’improvise scénariste
  • Quand l’intelligence artificielle s’improvise scénariste

    … ou des films de Wong Kar-wai ?, le logiciel de Runway, via l’IA générative, est capable d’imaginer de nouvelles fictions dont le visuel est réinventé.

Dérives. Reste que ce type d’outil devra apprendre à respecter les droits d’auteur – sa grande faiblesse aujourd’hui -, tout comme éviter « l’usurpation d’identité vocale », met en garde Microsoft. C’est d’ailleurs ce qui est arrivé à Emma Watson (ci-dessus) : sa voix reconstituée a été utilisée pour lire une section de Mein Kampf. Celle-ci, ainsi que la voix du personnage Rick Sanchez (de la série Rick et Morty), clamant « je vais battre ma femme Morty à mort », se sont retrouvées sur le forum 4chan, a révélé Vice. La voix de Joe Biden (ci-dessus) a également été détournée pour annoncer une invasion en Russie. Eleven Labs, la start-up à l’origine de la technologie qui a été utilisée pour ces détournements, a annoncé travailler sur des mesures destinées à les limiter.

L’étape supplémentaire devrait permettre de créer des fictions à partir de vidéos existantes, comme s’y attache la start-up Runway, qui reconstitue, par exemple, l’atmosphère envoûtante des ?uvres de Wong Kar-wai. En décomposant, afin de mieux les assembler, les briques de la création artistique, l’IA vient de s’attaquer à un autre monument : la série télé Seinfeld, qui a marqué les années 1990 ; l’adaptation par la machine a été diffusée en continu pendant près d’un mois sur la plateforme Twitch. Si ce show généré par ordinateur peut parfois prêter à sourire, l’original remporte encore – de loin pour l’instant – 

LEPOINT

You may like