MUSICLM : une IA de Google génère tout type de musique en partant d’un texte.

224
MUSICLM : une IA de Google génère tout type de musique en partant d'un texte.

Alors que les outils et la technologie alimentés par l’IA existent depuis des années, leurs progrès atteignent des niveaux où ils commencent à menacer la dépendance humaine de nombreuses industries clés, des restaurants de restauration rapide au génie logiciel. Nous avons tous entendu parler des merveilles universelles de ChatGPT ces derniers temps, et il n’a même pas encore atteint son apogée.

Maintenant, Google nous montre à quel point l’IA peut être intelligente lorsqu’il s’agit de créer de la musique. Une équipe de chercheurs du géant de la technologie a révélé MusicLM, un outil d’IA capable de créer de la musique établie sur un texte pédagogique. Encore une fois, c’est quelque chose que d’autres ont déjà essayé, mais MusicLM semble représenter un bond en avant dans les capacités que ces types de systèmes peuvent avoir.

Comment fonctionne MusicLM

MusicLM est un modèle d’apprentissage automatique susceptible d’associer un texte descriptif à des milliers de sons. Les utilisateurs peuvent faire appel à l’IA pour créer des chansons rythmées de différentes longueurs avec des paramètres qui décrivent le type de tempo, de rythme et d’influences culturelles qu’ils souhaitent, qu’il s’agisse d’une bande-son 8 bits prête pour le jeu ou d’un hymne reggaeton percutant. Vous pouvez même lui demander d’ajouter des paroles au rythme, bien qu’à en juger par les échantillons publiés par Google, il paraît générer un peu plus que du charabia (bien que du charabia très rythmé).

Si ce n’était pas assez impressionnant, que diriez-vous du fait que les utilisateurs peuvent lui fournir un échantillon audio d’un sifflement ou d’un bourdonnement pour émuler la mélodie exacte qu’ils veulent ? L’IA peut également générer tout cela de manière séquentielle, donnant aux utilisateurs la possibilité de créer des chansons douces complètes qui augmentent potentiellement ou diminuer le tempo avec différentes sections. Il prend toutes ces variables et produit de manière transparente une composition audio complète de 24 kHz, allant de 15 secondes à 5 minutes.

Un livre blanc détaillant les recherches à ce sujet indique que MusicLM a été construit sur AudioLM, qui entend potentiellement un morceau de musique et tenter de l’imiter. Cependant, les membres du projet suggèrent que la mise en œuvre d’une solution orientée texte est une entreprise beaucoup plus intense, car il est beaucoup plus difficile de former avec précision le modèle sur la complexité des sons à travers des définitions humaines quotidiennes. De plus, il n’a pas eu la même énorme bibliothèque d’échantillons à partir de laquelle travailler que d’autres algorithmes d’apprentissage automatique établis sur l’image, bien qu’il semble combler l’écart.

Quelle est la prochaine étape pour l’IA ?

Bien que nous ne puissions pas jouer nous-mêmes avec MusicLM – il n’a pas été rendu public – sur le fondement de la vaste bibliothèque d’échantillons échantillonnés, il reste encore du travail à faire. Bien que les caractéristiques des chansons paraissent exactement correspondre aux descriptions fournies au système, les pistes résultantes ne sont pas toujours cohérentes. Cela dit, même dans son état actuel, cela pourrait être un excellent outil pour créer, par exemple, des pistes libres de droits pour les chaînes YouTube, ou au moins donner aux utilisateurs un point de départ solide à partir duquel s’inspirer.

Ce n’est qu’un vœu pieux – Google n’a exprimé aucune intention de l’ouvrir au public. Cependant, la société a rendu public un ensemble de données de 5,5 mille appariements musique-texte pour que les parties intéressées puissent jouer avec. Il a été créé avec l’aide d’experts musicaux, et bien que cela ne suffise pas à lui seul pour des implémentations expérimentales ou commerciales du modèle, c’est un excellent point de départ pour des projets similaires.

Il est largement admis par les experts que l’intelligence artificielle va exploser en termes de fidélité et d’utilité globales en 2023. La popularité du public a déjà atteint son paroxysme, avec des outils comme ChatGPT et Jasper.ai qui commencent à générer un grand buzz public. Nous ne pouvons pas prédire un calendrier pour atteindre le niveau de maturation nécessaire avant que l’IA ne prenne le contrôle de presque toutes les parties de la société humaine, mais il est clair maintenant que sa progression ne ralentit pas.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici