La IA VALL-E de Microsoft puede imitar una voz humana con un patrón de tres segundos

Los ingenieros de Microsoft han introducido una IA (inteligencia artificial) modelo de conversión de texto a voz llamado VALL-E. Es capaz de imitar una voz humana., basándose únicamente en una muestra de sonido de tres segundos.

Los desarrolladores afirman que VALLE puede sintetizar audio, donde la voz “docta” dice algo, conservando incluso el color emocional.

Quizás también te interese nuestro artículo.: ¿Por qué pueden ser peligrosos los asistentes de voz?? Y también, por ejemplo, Cómo bloquear llamadas probables fraudulentas en iPhone y Android.

Y también déjame recordarte que los medios escribieron que Los atacantes utilizan software de cambio de voz para engañar a sus víctimas.

Los creadores llaman VALLE un "modelo de lenguaje de códec neuronal" y creemos que la novedad se puede utilizar para alta calidad texto a voz aplicaciones, edición de voz, cuándo se puede editar y cambiar una grabación de voz a partir de una transcripción de texto (eso es, una persona "dirá" algo que no dijo originalmente), además de crear contenido de audio en combinación con otros modelos de IA generativa, como GPT-3 (detrás del sensacional ChatGPT).

VAL-E se basa en el EnCodec tecnología que Meta anunciado en octubre 2022. A diferencia de otros métodos de conversión de texto a voz, VALL-E genera códigos de códec de audio discretos a partir de texto y señales acústicas recibidas.

Esencialmente, VALL-E analiza cómo suena una persona, divide esa información en componentes discretos (llamados “fichas”) con EnCodec, y utiliza los datos de entrenamiento para correlacionar lo que "sabe" sobre cómo sonaría esa voz si se pronunciaran otras frases fuera del patrón de tres segundos..

Microsoft enseñó síntesis de voz VALL-E en el LibriLight biblioteca de sonidos, que contiene 60,000 horas de habla inglesa de más 7,000 medios de comunicación (tomado principalmente de audiolibros de dominio público en LibriVox). Para que VALL-E funcione bien, la voz en la muestra de 3 segundos debe ser similar a la voz en estos datos de entrenamiento.

En un sitio web especial de Microsoft, Se dan decenas de ejemplos del trabajo de VALL-E..

Curiosamente, además de preservar el timbre y tono emocional del hablante, VALL-E también puede simular «entorno acústico» de una muestra de audio. Eso es, si se toma la muestra, por ejemplo, de una llamada telefónica, la versión VALL-E también puede sonar como una grabación de llamada, con todas las distorsiones y matices correspondientes.

Dado que VALL-E claramente puede usarse para una amplia variedad de abusos y fraudes, hasta que Microsoft publica el código fuente de su desarrollo y señala que en el futuro es posible crear un modelo para detectar contenido de audio generado con VALL-E.

La IA VAL-E de Microsoft es capaz de imitar una voz humana en un patrón de tres segundos

Los ingenieros de Microsoft han introducido una IA (inteligencia artificial) modelo de conversión de texto a voz llamado VALL-E. Es capaz de imitar una voz humana., basándose únicamente en una muestra de sonido de tres segundos.

Por Vladimir Krasnogolovy

Dejar un comentario Cancelar la respuesta