Según informa The New York Times, OpenAI transcribió más de un millón de horas de videos de YouTube para entrenar a su última generación de inteligencia artificial, GPT-4. Este reporte surge pocos días después de que el CEO de YouTube, Neal Mohan, afirmara que transcribir videos de YouTube para el entrenamiento de IA violaría claramente sus políticas.
El informe indica que miembros del equipo de OpenAI, incluido su presidente Greg Brockman, habrían ayudado personalmente en la recolección de estos videos. La dificultad de obtener suficientes datos para entrenar modelos de IA masivos habría motivado esta acción.
Tanto OpenAI como Google aún no han respondido a las solicitudes de comentarios al respecto. Esta revelación podría tener implicaciones significativas en la competencia entre OpenAI y Google en el desarrollo de inteligencia artificial generativa.
YouTube prohíbe expresamente la descarga de su contenido sin permiso, lo que plantea dudas sobre la legalidad de esta acción por parte de OpenAI.
El artículo del Times también menciona la incertidumbre de OpenAI sobre si estos videos se utilizaron para entrenar otros modelos de IA, como Sora, y destaca las posibles ramificaciones legales de este caso.
La situación se vuelve aún más compleja con las acciones legales pendientes entre OpenAI y Meta, así como las demandas de varios autores y casas de contenido por el uso de obras con derechos de autor en el entrenamiento de IA.