Una nueva polémica sacude el mundo de la Inteligencia Artificial (IA), esta vez con el Gobierno de España en el centro. Se ha revelado que Alia, el modelo fundacional de IA desarrollado por la administración, utilizó obras obtenidas sin pagar derechos de autor durante su fase de entrenamiento. La controversia ha estallado tras confirmarse que se recurrió a Common Crawl, un repositorio masivo que recopila todo el contenido disponible en internet, una práctica que grandes tecnológicas también han adoptado. Mientras el Gobierno defiende su postura basándose en la normativa europea, la comunidad de creadores y expertos legales cuestiona la ética y la legalidad del proceso.
La paradoja legal: Normativa y derechos de los creadores
Según el Ministerio de Transformación Digital y de la Función Pública, el entrenamiento de Alia está amparado por la Directiva de Mercado Único Digital y el Reglamento Europeo de IA. Estos textos establecen una excepción para la minería de datos, permitiendo el acceso a trabajos "a condición de que el uso de las obras (...) no haya sido expresamente reservado por sus titulares de derechos de forma adecuada". En la práctica, esto significa que los autores deben seguir un proceso complejo para que cada una de sus obras en internet sea protegida con un código que los robots de rastreo, como los de Common Crawl, detecten y eviten.
Esta exigencia ha sido calificada de "materialmente imposible" por expertos como Eva Moraga, abogada especialista en el sector cultural. La Coalición IA Respeta Cultura señala que la normativa no fue diseñada pensando en la IA, sino en la investigación académica, una contradicción que ha sido reconocida incluso por europarlamentarios. Mientras el Gobierno defiende que no se incluyeron en la base de datos contenidos que requerían suscripción o que tenían una opción de exclusión explícita, la realidad es que la carga de la prueba recae sobre el autor, generando un conflicto que ya ha provocado múltiples litigios a nivel mundial. Por ejemplo, en Estados Unidos,
¿Una oportunidad perdida? El debate en Europa y la batalla en los tribunales
La razón de ser de Alia, según el presidente Pedro Sánchez, es la de crear un modelo que sea un referente en idiomas oficiales de España (castellano, catalán, gallego, valenciano y vasco), con una proporción de documentos mucho mayor que modelos como ChatGPT o Gemini. Esto, en teoría, le permitiría comprender mejor las frases hechas y el contexto local. Además, al ser un proyecto de código abierto, cualquier persona o empresa puede descargarlo y usarlo. El Gobierno ha insistido en que su entrenamiento también se basa en documentación pública oficial, como el BOE, pero el uso de Common Crawl sigue siendo el punto de mayor controversia.
TE PUEDE INTERESAR: ¡REVOLUCIÓN TECNOLÓGICA! Google planea llevar Android a los PC de la mano de Qualcomm y Snapdragon
El Reglamento Europeo de IA, aunque más reciente, tampoco ha resuelto el problema de fondo. El abogado Borja Adsuara sostiene que si bien el reglamento exige la autorización de los titulares de derechos, la ambigüedad de la excepción de investigación abre un vacío legal. La UE ha emitido un código de buenas prácticas, pero mantiene la premisa de que los autores deben explicitar que sus obras no pueden ser usadas, un punto que, según directores de la patronal de editores, es una "oportunidad perdida" para conectar la acción de los gobiernos y las tecnológicas con los valores de la sociedad. La batalla ahora se traslada a los tribunales. Ya existen demandas en Francia, Alemania y Hungría que, eventualmente, sentarán jurisprudencia sobre si la excepción puede ser usada como argumento por las empresas de IA para evitar el pago de derechos de autor. Esta disputa legal y ética es un recordatorio de que la tecnología avanza a un ritmo vertiginoso, mientras que la regulación y la justicia buscan adaptarse a un nuevo mundo digital, al igual que los