Tecnologías

Vall-E: Conoce la inteligencia artificial que imita tu voz con solo escucharte tres segundos

Microsoft está apostando fuerte por la inteligencia artificial de ChatGPT;  sin embargo, esta es capaz de imitar tu voz con solo escucharte; plantea problemas como el robo de identidad.

Por: Cristian Elizalde  


ESTADOS UNIDOS.- Hace unos años el mundo era de las criptomonedas; el año 2022 era de los tokens no fungibles; y hoy, sin duda, perfila para ser el año de las inteligencias artificiales y la concreción del metaverso.

Con esto en mente, Microsoft está apostando fuerte por la inteligencia artificial de GPT-3, que está diseñada por OpenAI para varias de sus aplicaciones y servicios, que van desde bing o World. Sin embargo, también aseguraron que se encuentran desarrollando modelos propios.

El plan de Microsoft para implementar ChatGPT dentro de sus soluciones continúa; y, durante el primer semestre de este 2023 llegará a Bing, además de que hay información sobre las implementaciones que tendrá dentro de la suite de Office; además de una inteligencia artificial nueva.

Conoce Vall-E: La inteligencia artificial que imita voces.

Vall-E, en concreto, es un modelo de lenguaje para la síntesis de texto a voz (TTS) que sea basa en EnCodec, un códec de audio de Meta que es similar a otras inteligencias artificiales que permiten generar audio a través de una breve descripción de texto.

Si bien es cierto que la propia Microsoft cuenta con una similar: la Text-To-Speech, que permite convertir texto en voz sintetizada, la diferencia radica en que Vall-E es capaz de analizar la voz de una persona para posteriormente interpretar cómo sonaría esa voz con diferentes frases.

Una peculiaridad: preserva la entonación y la emoción del hablante, según afirma la compañía y puede lograr grandes resultados con solo tres segundos de voz.

Específicamente, entrenamos un modelo de lenguaje de códec neuronal (llmaado Vall-E) utilizando códigos discretos derivados de un modelo de códec de audio neuronal estándar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión continua de señal como en trabajos previos”, señaló el comunicado.

En otras palabras, la propia ChatGPT sería capaz de ofrecer resultados de voz una vez; y una vez integrado este modelo. Un “imita la voz de chiquito de la calzada”, sería posible, siempre y cuando se haya realizado el entrenamiento previo.

El objetivo de esto, según explican en un artículo de Hipertextual, es poder crear discursos de voz a través de una introducción de texto; sin embargo, esto trae consigo distintos inconvenientes pues, en caso de que Vall-E esté disponible al público, muchos podrían utilizarla para suplantar la identidad de las personas.

Temas

Más Noticias