Lo de la inteligencia artificial se empezó a poner extraño cuando nos enteramos que podíamos hablar con los muertos gracias a una IA. Ahora, un software hace discursos con la voz del usuario.
AudioLM es un entorno de trabajo o framework para generar audio de alta calidad y que se mantenga consistente a largo plazo, creado por la división de investigación de Google.
Este programa de inteligencia artificial, de acuerdo con lo reseñado por Hipertextual, parte de una grabación de apenas unos segundos de duración y es capaz de prolongarla de forma natural y coherente, sin entrenamiento o transcripciones o anotaciones previas.
Lo más sorprendente de los resultados, publicados en la web de AudioLM, es que sintáctica y semánticamente son admirables, manteniendo la identidad del hablante y haciendo que el oyente no pueda diferenciar el audio original con el generado por la IA.
La inteligencia artificial replica la articulación, tono, timbre e intensidad y hasta es capaz de introducir el sonido de la respiración del hablante, formando frases con sentido.
¿Cómo la IA logra estos resultados?
De cada audio, la IA extrae unos marcadores semánticos para codificar una estructura de alto nivel de fonemas, léxico, semántica y unos marcadores acústicos de identidad del hablante, calidad de la grabación y ruido de fondo.
Con estos datos procesados y comprensibles, AudioML establece una jerarquía en la que predice primero los marcadores semánticos, que luego se emplean como condicionantes para predecir los marcadores acústicos. Estos últimos se vuelven a utilizar al final para convertir los bits en algo que los humanos podamos escuchar.
Esta IA puede ser beneficiosa para entrenar modelos de lenguaje que generen discursos y para continuar composiciones de piano. De momento, AudioLM no está abierto al público y es solo un modelo de lenguaje que se podrá integrar en diferentes proyectos.