Les technologies d’intelligence artificielle se développent à une vitesse incroyable et si cela est mal encadré, cela peut être problématique. En effet, certains IA sont capables de créer des images à partir de vos mots et de converser avec vous. C’est le cas de VALL-E de Microsoft, une IA capable d’imiter n’importe quel son qu’elle entend en trois secondes seulement. Contrairement à de nombreux outils d’IA, VALL-E peut reproduire les émotions et le ton d’un locuteur, même en créant un enregistrement de mots que le locuteur original n’a jamais prononcés.
VALL-E : l’outil d’IA qui peut reproduire n’importe quelle voix
Microsoft a récemment publié un outil d’intelligence artificielle appelé VALL-E, capable de reproduire la voix des gens. L’outil n’utilise qu’un enregistrement de trois secondes d’une voix spécifique pour générer du contenu. Il a été entraîné sur 60 000 heures de données vocales anglaises. Le modèle d’IA est capable de reproduire les émotions et le ton d’un locuteur, même lorsqu’il crée un enregistrement de mots que le locuteur original n’a jamais prononcés.
Il s’agit d’une avancée significative dans le domaine de la parole générée par l’IA, car les modèles précédents étaient uniquement capables de reproduire la voix, mais pas les émotions ou le ton du locuteur. Un article de l’université Cornell a utilisé VALL-E pour synthétiser plusieurs voix, et des exemples de ce travail sont disponibles sur GitHub. Si les échantillons de voix partagés par Microsoft sont de qualité variable, certains semblent naturels, tandis que d’autres sont clairement générés par des machines et ont un son robotique. Cependant, à mesure que la technologie de l’IA s’améliore, les enregistrements générés deviendront probablement plus convaincants.
Cependant, les implications éthiques de cette technologie suscitent des inquiétudes. À mesure que l’intelligence artificielle gagne en puissance, les voix générées par VALL-E et les technologies similaires deviendront plus convaincantes, ce qui pourrait ouvrir la voie à des appels de spam réalistes reproduisant la voix de personnes réelles qu’une victime potentielle connaît. Les politiciens et autres personnalités publiques pourraient également être usurpés, ce qui pourrait conduire à la diffusion de fausses informations.
De plus, certaines banques utilisent la technologie de reconnaissance vocale pour vérifier l’identité d’un appelant, mais si les voix générées par l’IA deviennent plus convaincantes, il pourrait devenir plus difficile de détecter si un appelant utilise une voix de VALL-E. En effet, cette technologie pourrait également avoir un impact sur les doubleurs de voix, car leurs services pourraient ne plus être nécessaires si les voix générées par l’IA deviennent plus réalistes.
VALL-E est un outil d’IA impressionnant qui a le potentiel de révolutionner le domaine de la synthèse vocale. Cependant, il soulève également plusieurs problèmes d’éthique et de sécurité. Il sera important pour des entreprises comme Microsoft de mettre au point des mesures pour réglementer l’utilisation de VALL-E afin de s’assurer qu’il est utilisé à bon escient et non à des fins malveillantes.