Sora (OpenAI) : tout savoir sur l’IA qui génère des vidéos à partir de texte

Sora est le modèle d’intelligence d’artificielle d’OpenAI capable de transformer une invite texte en vidéo. Potentiellement une révolution dans la création artistique, Sora soulève de nombreuses questions, auxquelles nous nous efforçons ici de répondre. 

Après avoir suscité un engouement sans pareille avec son générateur de texte ChatGPT et son générateur d’image DALL-E, OpenAI a présenté Sora, son générateur de vidéo.

Comme pour ses autres plateformes, il s’agit d’un outil basé sur l’intelligence artificielle, capable de créer du contenu à partir d’une invite sous la forme de texte. Sora promet de révolutionner bien des usages créatifs sur internet et d’autres secteurs, voici ce que vous devez savoir à son sujet.

COMMENT FONCTIONNE SORA ?

Sora repose, comme les modèles GPT, sur une architecture de transformateur. Dans un réseau neuronal, un transformateur va se servir de son champ d’étude pour établir des relations entre les composants d’une séquence, lui permettant ensuite de modifier une séquence d’entrée en séquence de sortie et de générer une réponse à une invite.

Ce système donne l’impression que l’IA comprend la question et réfléchit pour créer une réponse pertinente, mais aucune capacité de raisonnement n’est en fait impliquée. Il s’agit d’algorithmes utilisant des représentations mathématiques pour mettre en relation des notions entre elles.

Quand les grands modèles de langage (LLM) ont recours à des jetons (tokens) dans leur fonctionnement, Sora utilise ce qu’OpenAI appelle des “patchs” (correctifs visuels).

Cette technique a déjà fait ses preuves dans le domaine de la visualisation de données. Les vidéos sont transformées en patchs par compression, et ces patchs agissent ensuite comme des tokens. Ils peuvent être exploités pour reconstituer une vidéo (ou une image) grâce au transformateur.

Sora patchs

“Sora est un modèle de diffusion qui génère une vidéo en commençant par une vidéo qui ressemble à du bruit statique et la transforme progressivement en supprimant le bruit en plusieurs étapes”, explique OpenAI. Il est possible de créer une vidéo en une seule fois à partir d’une unique invite ou d’utiliser plusieurs prompts pour allonger ou corriger la vidéo au fur et à mesure.

Sora bruit

Le modèle a recours à la même technique de récapitulation utilisée par DALL-E 3. Celle-ci consiste en la génération de légendes très détaillées et descriptives pour mettre au point une base de données d’entraînement visuel riche. Le modèle peut ainsi piocher dans cette base de données pour respecter plus fidèlement les instructions textuelles de l’utilisateur dans la vidéo générée.

En plus d’une invite texte, Sora prend en charge le traitement d’instructions contenant une image fixe.

Il crée alors une animation basée sur le contenu de cette image. Le prompt peut même proposer une vidéo, que Sora va être en mesure d’étendre ou à laquelle elle peut ajouter des scènes manquantes.

QUELLE EST LA DURÉE D’UNE VIDÉO GÉNÉRÉE PAR SORA ?

Pour l’instant, Sora peut générer des vidéos d’une durée maximale d’une minute. Cette limite est due à la quantité de ressources nécessaires pour créer une vidéo qui respecte à la lettre les indications de l’utilisateur et la patte visuelle désirée. OpenAI n’a pas communiqué sur la durée de traitement nécessaire pour générer une vidéo.

Le retour de premiers utilisateurs semble indiquer qu’il faut environ une heure pour créer une vidéo d’une minute avec Sora. Un tel délai représente une grande faiblesse pour le service, empêchant les utilisateurs de corriger efficacement leurs vidéos avec de nouveaux prompts pour les optimiser et obtenir des résultats plus pertinents.

QUELLE EST LA QUALITÉ D’IMAGE DE SORA ?

Sora génère des vidéos en définition jusqu’à 1 920 x 1080p, soit Full HD. Il peut aussi réaliser des vidéos au format vertical jusqu’à 1080 x 1920p, et s’adapter à n’importe quel ratio. Contrairement à d’autres services de ce type, le nombre d’images par seconde des vidéos n’est pas connu.

Sora est capable de créer des rendus ultra réalistes, mais aussi des scènes plus abstraites, selon les demandes explicitées dans l’invite.

Des artifices et aberrations dans l’image peuvent apparaître, et l’on peut constater un phénomène d’hallucinations, comme pour la génération d’image avec DALL-E. Des erreurs dans les mouvements, ainsi que dans les interactions entre les personnages ou avec le décor et les objets peuvent aussi avoir lieu.

Mais les premiers exemples publiés par OpenAI sont impressionnants, et l’on peut penser que Sora pourrait déjà être prêt pour générer des spots publicitaires diffusés sur internet ou à la télévision.

Du propre aveu d’OpenAI, Sora doit encore être amélioré. 

“Il peut avoir du mal à simuler avec précision la physique d’une scène complexe et ne pas comprendre des cas spécifiques de cause à effet”, admet l’entreprise. Par exemple, si une personne mord dans un cookie, celui-ci n’aura pas forcément de marque de morsure. La gestion des bris de verre est aussi une difficulté rencontrée par OpenAI. Le modèle peut se confondre dans les instructions spatiales d’une invite, en mélangeant la gauche et la droite par exemple.

Il peut en outre avoir du mal à respecter des consignes de direction d’une scène, comme une trajectoire ou un angle de caméra spécifique.

Sora est par contre capable de créer des scènes avec des détails précis du sujet et de l’arrière-plan, d’exprimer des émotions, de respecter un style visuel, de changer plusieurs fois de plans dans une seule vidéo ou encore d’adopter un format de pellicule précis, comme le 35 mm. La cohérence 3D est déjà maitrisée. Sora peut générer des vidéos avec un mouvement de caméra dynamique.

 “Au fur et à mesure que la caméra se déplace et tourne, les personnes et les éléments de la scène se déplacent de manière cohérente dans l’espace tridimensionnel”, apprend-on.

De même, OpenAI est satisfait des performances de Sora en termes de cohérence temporelle tout au long d’une vidéo et de permanence des objets. “Notre modèle peut conserver des personnes, des animaux et des objets même lorsqu’ils sont masqués ou quittent le cadre. Il peut générer plusieurs plans du même personnage dans un seul échantillon, en conservant leur apparence tout au long de la vidéo”, fait savoir la société.

COMMENT ESSAYER SORA ?

Sora est uniquement accessible auprès des membres de l’OpenAI Red Teaming Network. Il s’agit d’un groupe d’utilisateurs sélectionnés avec soin, qui ont pour mission d’éprouver les capacités de l’outil. L’objectif est de faire remonter à OpenAI des problèmes techniques, légaux ou éthiques, pour qu’ils soient résolus avant un lancement plus large. La question des deepfakes inquiète notamment les éditeurs de solutions de génération vidéo.

Des barrières doivent être dressées à cet égard. Le respect des droits d’auteur est une autre problématique importante à prendre en compte.

“Nous accordons également l’accès à un certain nombre d’artistes, de designers et de cinéastes pour obtenir des commentaires sur la manière de faire progresser le modèle, afin qu’il soit le plus utile possible aux professionnels de la création”, fait aussi savoir OpenAI. L’entreprise partage ses progrès et ouvre la porte de Sora à quelques personnes externes à OpenAI dès maintenant pour obtenir le plus de retours possibles et améliorer son outil. Nous ne savons pas encore quand Sora sera disponible pour le grand public, ni sous quelle forme.

SORA SERA-T-IL INTÉGRÉ À CHATGPT ?

Nous ne savons pour le moment pas comment OpenAI compte distribuer Sora auprès du grand public. Si l’on se fie aux récentes décisions stratégiques prises par l’entreprise, il n’est pas certain que l’outil dispose de sa propre plateforme utilisateur.

DALL-E 2 n’accepte en effet plus de nouveaux clients sur son interface propre, alors qu’il faut passer par une version payante ou développeur de ChatGPT pour accéder à DALL-E 3. On peut donc imaginer qu’à son lancement, Sora sera directement intégré à ChatGPT Plus.

Il n’est pas certain qu’une disponibilité gratuite, même limitée, de Sora soit proposée à sa sortie.

ChatGPT

QUELLES MESURES DE SÉCURITÉ SONT INTÉGRÉES À SORA ?

Avant que Sora ne soit rendu disponible auprès du grand public, OpenAI a déjà annoncé une batterie de mesures consistant à réduire les risques d’abus de ce puissant outil. La société est en train de développer des outils “pour aider à détecter les contenus trompeur”, citant notamment un système de classification pour rendre possible la détection d’une vidéo générée par Sora.

Il est aussi précisé que si le modèle venait à être intégré dans un produit d’OpenAI à l’avenir, les équipes prévoient d’inclure les métadonnées C2PA. Ce standard ouvert, déjà utilisé pour les images générées par DALL-E 3, permet de tracer l’origine d’un contenu pour savoir s’il a été ou non crée par une IA.

Sora bénéficiera également des fonctions de sécurité déjà implantées dans d’autres de ses services.

Est prévu un classificateur de texte dont le rôle est de vérifier et rejeter les invites qui enfreignent les politiques d’utilisation d’OpenAI. Sont mis au ban les prompts qui demandent un contenu affichant une violence extrême, du contenu sexuel, des images haineuses, une ressemblance avec une célébrité ou l’adresse IP d’un tiers.

En outre, des classificateurs d’images examineront les images de chaque vidéo générée, afin de garantir qu’aucune vidéo ne viole ces fameuses politiques d’utilisation.

QUELS SONT LES CONCURRENTS DE SORA ?

Après les modèles de génération de texte et d’image, les grands acteurs du secteur de l’intelligence artificielle générationnelle s’activent sérieusement au développement de modèles de génération de vidéo. Google est l’un des principaux concurrents de ChatGPT et GPT-4 avec Gemini, il se pose aussi comme un adversaire coriace sur le terrain de la création de vidéo avec Lumiere.

Google Lumiere, qui est, lui aussi, inaccessible auprès du grand public, se limite pour l’instant à des vidéos de cinq secondes. Le prompt peut contenir une image, et pas seulement du texte.

 

Parmi les poids lourds du numérique, Meta s’intéresse également au sujet, notamment avec Emu Video, qui permet de créer des vidéos à partir d’une invite texte uniquement, image uniquement ou une combinaison des deux. Nous pouvons citer Gen-2, de Runway, qui est lui capable de créer des vidéos non seulement à partir de texte ou d’image, mais aussi à partir d’une autre vidéo. Stable Video Diffusion et Pika font de même partie des prétendants sérieux sur ce marché.

phandroid

You may like