Le modèle est encore loin d’être parfait, mais il est déjà capable de générer des résultats étonnamment cohérents.
Meta a récemment dévoilé MusicGen, un tout nouveau modèle IA capable de générer du contenu à partir d’une simple requête textuelle. Mais celui-ci est un peu particulier ; rien à voir avec les LLM comme GPT qui produisent du texte ou les générateurs d’images comme Midjourney. Comme son nom l’indique, il est spécialisé dans la génération de musique.
L’ outil, disponible dans un espace HugginFace à cette adresse, propose deux façons de travailler. La première consiste à utiliser un prompt classique pour décrire le morceau à générer. La seconde propose de partir d’un morceau existant pour en créer des variantes, un peu comme les programmes de type Midjourney peuvent déjà le faire avec des images. Et les premiers résultats sont assez impressionnants, même si ce programme est encore loin de représenter une véritable menace pour les compositeurs professionnels.
Des résultats courts mais convaincants
Felix Kreuk, un chercheur en intelligence artificielle de la maison-mère de Facebook, en a fait une petite démonstration dans un tweet repéré par Gizmodo. Pour son premier exemple, il a utilisé MusicGen pour générer un morceau dans le style d’une chanson pop des années 80 en partant de la célèbre Toccata et fugue en ré mineur de Bach, pour un résultat plutôt convaincant. Son deuxième exemple, construit à partir du Bolero de Ravel, est un peu déroutant musicalement, mais il reste néanmoins cohérent.
We present MusicGen: A simple and controllable music generation model. MusicGen can be prompted by both text and melody.
We release code (MIT) and models (CC-BY NC) for open research, reproducibility, and for the music community: https://t.co/OkYjL4xDN7 pic.twitter.com/h1l4LGzYgf— Felix Kreuk (@FelixKreuk) June 9, 2023
Nous avons également tenté de générer nos propres morceaux, avec des résultats assez hétérogènes. Par exemple, MusicGen s’en est admirablement bien sorti lorsque nous lui avons commandé une version du thème de la Conté, du Seigneur des Anneaux de Peter Jackson, dans un style dit « Lo-Fi ». En revanche, il a légèrement perdu les pédales lorsqu’il a dû improviser un opéra sur l’air de Carmen dans le style de Black Sabbath.
Malheureusement, l’outil est pris d’assaut par les internautes curieux en ce moment. Nous n’avons donc pas pu pousser ces expériences très loin à cause du trafic important. Mais dans l’ensemble, MusicGen semble capable de produire des résultats pas forcément très élégants, mais au moins cohérents presque à tous les coups. Et c’est déjà très impressionnant connaissant la complexité de ce genre d’opérations.
Le code est disponible en open-source
Il est possible de parvenir à des résultats plus solides en créant sa propre instance du modèle sur Hugging Face. Un utilisateur compétent pourra aussi télécharger le code disponible en accès libre sur GitHub. À noter que cette méthode nécessite des compétences techniques avancées. Il faut aussi un ordinateur très performant, en tout cas pour la plus grosse version du modèle qui atteint les 3,3 milliards de paramètres.
Le début d’une nouvelle révolution musicale
Meta n’est pas la première entreprise à proposer ce genre de programme. On peut citer le MusicLM de Google ou encore le Jukebox d’OpenAI. Mais à l’heure actuelle, il s’agit surtout de projets de recherche. Ils n’ont pas vocation à devenir des produits commerciaux, du moins pas dans leur version actuelle.
Une bonne nouvelle pour les ayants droit. En effet, l’algorithme a été entraîné à partir d’environ 20 000 heures de musique. La moitié de ce volume provenait de chansons sous licence produites par des humains en chair et en os.. Le reste est tiré de pistes instrumentales récupérées sur ShutterStock et Pond5.
Comme dans le monde de l’image, il convient de se préparer à de gros débats sur le thème du droit d’auteur et de la propriété intellectuelle. Car plus ces outils deviendront performants et accessibles, plus il sera facile pour un vidéaste indépendant ou un publiciste de générer du contenu semi-original à partir du travail d’autres artistes. Et cela pourrait faire émerger tout un tas de litiges complexes dans lesquels l’arbitrage s’annonce excessivement difficile.
L’IA ne sera jamais une artiste, les experts ont tranché
Mais d’un autre côté, ce genre de programme pourrait aussi devenir un outil incroyable pour les compositeurs amateurs comme professionnels. Il faut donc espérer que la Loi pourra suivre le rythme et tenir compte des nouveaux défis légaux et éthiques posés par l’IA générative, car il serait dommage de se priver du potentiel formidable de cette technologie.
Gizmodo