VALL-E peut reproduire n'importe quelle voix en trois secondes
Charles Gouin-Peyrot
Publié le 10 janvier 2023 · 3 min de lecture
VALL-E : l'outil d'IA qui peut reproduire n'importe quelle voix
Microsoft a récemment publié un outil d'intelligence artificielle appelé VALL-E, capable de reproduire la voix des gens. L'outil n'utilise qu'un enregistrement de trois secondes d'une voix spécifique pour générer du contenu. Il a été entraîné sur 60 000 heures de données vocales anglaises. Le modèle d'IA est capable de reproduire les émotions et le ton d'un locuteur, même lorsqu'il crée un enregistrement de mots que le locuteur original n'a jamais prononcés. Il s'agit d'une avancée significative dans le domaine de la parole générée par l'IA, car les modèles précédents étaient uniquement capables de reproduire la voix, mais pas les émotions ou le ton du locuteur. Un article de l'université Cornell a utilisé VALL-E pour synthétiser plusieurs voix, et des exemples de ce travail sont disponibles sur GitHub. Si les échantillons de voix partagés par Microsoft sont de qualité variable, certains semblent naturels, tandis que d'autres sont clairement générés par des machines et ont un son robotique. Cependant, à mesure que la technologie de l'IA s'améliore, les enregistrements générés deviendront probablement plus convaincants. Cependant, les implications éthiques de cette technologie suscitent des inquiétudes. À mesure que l'intelligence artificielle gagne en puissance, les voix générées par VALL-E et les technologies similaires deviendront plus convaincantes, ce qui pourrait ouvrir la voie à des appels de spam réalistes reproduisant la voix de personnes réelles qu'une victime potentielle connaît. Les politiciens et autres personnalités publiques pourraient également être usurpés, ce qui pourrait conduire à la diffusion de fausses informations. De plus, certaines banques utilisent la technologie de reconnaissance vocale pour vérifier l'identité d'un appelant, mais si les voix générées par l'IA deviennent plus convaincantes, il pourrait devenir plus difficile de détecter si un appelant utilise une voix de VALL-E. En effet, cette technologie pourrait également avoir un impact sur les doubleurs de voix, car leurs services pourraient ne plus être nécessaires si les voix générées par l'IA deviennent plus réalistes. VALL-E est un outil d'IA impressionnant qui a le potentiel de révolutionner le domaine de la synthèse vocale. Cependant, il soulève également plusieurs problèmes d'éthique et de sécurité. Il sera important pour des entreprises comme Microsoft de mettre au point des mesures pour réglementer l'utilisation de VALL-E afin de s'assurer qu'il est utilisé à bon escient et non à des fins malveillantes.L'auteur
Charles Gouin-Peyrot
Journaliste tech et testeur indépendant, je décrypte la tech grand public. Spécialisé dans le hardware, l'audio et la maison connectée, je mets ma rigueur technique et mon expérience de formateur au service de mes tests. Mon objectif est simple : dépasser les fiches techniques pour vous livrer des analyses transparentes, impartiales et ancrées dans un usage 100 % réel.