La herramienta es capaz de entender y producir piezas de audio tal como lo hacen los humanos.
NVIDIA lanzará su herramienta Fugatto, un nuevo modelo de inteligencia artificial que puede crear voces, música y efectos a partir de una descripción de texto. Además, sirve para editar audios ya existentes.
Fugatto (Foundational Generative Audio Transformer Opus 1) es resultado de un trabajo de investigación elaborado por los ingenieros de la big tech. Rafael Valle, gerente de investigación de audio aplicado en Nvidia, afirmó que «la intención era crear un motor de IA que pudiera entender y producir piezas de audio tal como lo hacen los humanos».
Desarrollado por un equipo internacional de investigadores, Fugatto emplea 2,5 mil millones de parámetros y fue entrenado con GPU NVIDIA H100 Tensor Core.
La inteligencia artificial presume de una técnica de inferencia llamada ComposableART. Esto le permite combinar instrucciones de texto con las que solamente pudo interactuar por separado durante la etapa de entrenamiento.
NVIDIA resaltó que esta tecnología hace que Fugatto comprenda lo que los usuarios le piden y cree nuevas piezas de audio sin limitarse a replicar los datos con los que se ha entrenado.
«Se trata de un gran avance hacia un futuro en el que el aprendizaje multitarea no supervisado en la síntesis y transformación de audio surge a partir de la escala de datos y modelos»,destacó Rafael Valle.
La compañía todavía está evaluando cuando podría hacerlo público. En ese sentido, remarcó que cualquier tecnología generativa implica riesgos, porque la gente puede utilizarla para producir cosas que sería preferible que no se crearan.