This material is also available in: Português
Este artículo, al igual que todos los demás artículos publicados en este número del Journal of Latin American Cultural Studies, será utilizado para entrenar productos de Inteligencia Artificial (IA) de Microsoft.
Es notable que la comunidad académica se enterara de esto a través de un comunicado de prensa de Informa, la casa matriz de la editorial académica Taylor & Francis, dirigido a los inversionistas el 8 de mayo de 2024 (Informa 2024). Por otro lado, no se les informó de esta decisión a los autores, investigadores o al personal de la editorial, que constituyen la base de las más de 2.700 revistas y publicaciones académicas de Taylor & Francis. Ciertamente, nadie le informó al consejo editorial de JLACS.
Según se reportó en The Bookseller (Battersby 2024) e Inside Higher Ed (Palmer 2024), se firmó un Acuerdo de Asociación para la IA que le otorga a Microsoft “acceso no exclusivo a Contenido de Aprendizaje Avanzado” por una suma inicial de diez millones de dólares, además de unos pagos anuales no revelados durante los siguientes tres años. Cuando salió a la luz el acuerdo con Informa, otras publicaciones (SOA Policy Team 2024) confirmaron que Wiley, Cambridge UP y Oxford UP (Wood 2024) también están en negociaciones para conferir licencias sobre contenidos académicos que serían utilizados para entrenar modelos de IA.
De cierta forma, este anuncio tiene un aspecto positivo: todos quisiéramos que nuestros chatbots de IA y los modelos que los sustentan se basaran en investigaciones de alta calidad, sometidas a revisión de pares. Y en cualquier caso, no queremos que estos modelos saquen deducciones a partir de publicaciones de trolls en 4chan, de PDFs pirateados y escaneados con OCR de baja calidad o de cualquier otro tipo de datos acopiados de internet en su entrenamiento inicial. Pero quienes hemos investigado, escrito, revisado, corregido y, finalmente, publicado el contenido que ahora se está licenciando, debemos preguntarnos: ¿dónde quedamos nosotros en este acuerdo?
La cuestión de los derechos de autor del material utilizado para entrenar modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) como ChatGPT asociado con Microsoft, sigue sin resolverse y se pondrá a prueba en un futuro cercano con las demandas legales pendientes que han interpuesto grupos de artistas (Akers 2024), autores (The Authors Guild 2023) y editores de noticias (Grynbaum & Mac 2023) en Estados Unidos. El Washington Post (Schaul 2024) y The Atlantic (Reisner 2023) han publicado importantes investigaciones en las que se expone que los conjuntos de datos para entrenar modelos fundacionales, como The Pile y el Colossal Cleaned Crawled Corpus (C4) que se utilizaron para crear modelos de chatbot anteriores, contenían cantidades enormes de material pirateado. Estos informes revelan, entre otras, el notable detalle de que en el conjunto de datos que utiliza C4 se encuentran 200 millones de instancias en las que aparece el símbolo ©, que —como observan los periodistas con ironía (Schaul 2024)— indica de manera inequívoca que las obras están protegidas por derechos de autor.
De hecho, una de las razones por las cuales Microsoft se asoció con OpenAI fue ampliar su Customer Copyright Commitment [Compromiso de Derechos de Autor para Clientes] “para defender a los clientes y cubrir los costos en caso de una sentencia adversa si tienen que responder a una demanda por infracción de derechos de autor al hacer uso de materiales obtenidos del servicio Azure OpenAI” (Smith 2023). En otras palabras, las empresas de IA están extendiendo a sus clientes garantías de respaldo legal: si un tribunal o un ente regulador determina que los modelos de lenguaje de gran tamaño violan derechos de autor, Microsoft se hará cargo de los costos judiciales de sus clientes. En comparación con los miles de millones de dólares que Microsoft se ha comprometido públicamente a invertir en OpenAI, un acuerdo de licencia con Informa por diez millones de dólares es perfectamente razonable. Si bien Informa apenas ingresa en el mercado de venta de datos para entrenar modelos generativos de IA, las editoriales académicas como Taylor & Francis y Routledge ya tienen experiencia en establecer acuerdos de licencias masivas. Es mediante este tipo de acuerdos de licencia que las bibliotecas universitarias adquieren acceso a los clústeres temáticos de las revistas académicas alojadas en bases de datos como T&F. (¡Esos son justo los acuerdos de licencia con los que se mantiene la investigación detrás de muros de pago, inaccesible para gran parte del mundo! [Lara Guzmán 2022])
Es poco lo que sabemos sobre el contenido de estos nuevos acuerdos de licencia de IA, pero ciertamente las vagas promesas en el comunicado de prensa de Informa no se refieren a las quejas de orden moral expresadas por los creadores del contenido ni a los procesos judiciales que han interpuesto contra el uso indiscriminado de su trabajo intelectual para generar ganancias para otros. Algunos lectores de JLACS estarán familiarizados con los marcos normativos de Conocimiento Tradicional (TK), en particular las 3 Cs —Consentimiento, Crédito y Compensación— que se aplican para evaluar las asociaciones en torno a propiedad intelectual cuando una de las partes está conformada por custodios de un conocimiento tradicional. Aunque las cuestiones de Compensación pueden parecer ajenas al mundo académico, estamos hablando de un acuerdo de diez millones de dólares. Alguien está recibiendo ese dinero, y dudo mucho que sea en forma de regalías para nosotros, los autores.
En cuanto al Consentimiento y el Crédito, estas cuestiones se tornan más complejas cuando se debaten en el ámbito académico. Por un lado, la citación es la moneda de cambio en este mundo, por lo que cualquier acción que degrade los mecanismos de citas y referencias con los que se reconoce a quién le corresponde el crédito sería antitética a la producción académica de conocimiento. Además, es poco probable que los académicos consientan de manera consciente y voluntaria a que su trabajo sea utilizado, sin citación, para desarrollar tecnologías cuyo uso más popular podría ser, posiblemente, generar pornografía no consentida (Robertson 2024). Por otro lado, sabemos que la mayoría de las industrias de recopilación de datos evitan implementar mecanismos de consentimiento directo, precisamente porque, cuando se les da la oportunidad, los usuarios suelen optar por no autorizar el uso de sus datos (esto se demostró enfáticamente cuando Apple les dio a los usuarios de iPhone la opción de rechazar ser rastreados por las aplicaciones [Axon 2021], y el 96 % de ellos lo hizo).
Por otro lado, la investigación académica constituye una categoría especial, distinta de las obras de arte, los textos literarios y los artículos de noticias que están en el centro de los litigios pendientes contra las empresas de IA. La investigación académica suele estar subsidiada en gran medida con fondos públicos y está pensada para compartirse, leerse, replicarse, confirmarse o cuestionarse. Solo en casos excepcionales, cuando trata temas sensibles, puede llegar a estar clasificada como información no apta para difundirse públicamente. Yo publico mi investigación porque quiero que sea analizada y utilizada como base para nuevos desarrollos; mi consentimiento es más que implícito, es consustancial al acto de publicar mi trabajo. Este consentimiento se funda en el sobreentendido de que quien utilice mi investigación me otorgará el crédito correspondiente, incluso si su objetivo es refutar todo lo que he planteado.
El sistema de revisión de pares es un proceso que requiere un enorme despliegue de recursos, razón por la cual los gobiernos federales, estatales y locales subsidian las universidades dedicadas a la investigación. Independientemente de los muros de pago a los que vaya a parar su trabajo de investigación, los académicos suelen compartir copias electrónicas de sus trabajos con colegas que no tienen acceso institucional ni pueden costear las suscripciones. Este espíritu, que deriva de una mezcla especial de generosidad y compromiso con las comunidades internacionales de investigación, también explica por qué una mayoría creciente de académicos en todo el mundo respalda de manera inequívoca los modelos de acceso abierto para publicar y compartir investigaciones académicas.
Y ese es quizás el aspecto más incómodo de este acuerdo de licencia. Muy seguramente, una gran mayoría de los de JLACS estaría de acuerdo con que, en un mundo ideal, la investigación académica básica sería subsidiada públicamente, y los resultados estarían disponibles de forma gratuita y pública para todos, sin barreras. Sin embargo, en ese mundo ideal de acceso abierto, tampoco habría impedimentos para que los desarrolladores de IA recopilen masivamente este contenido para entrenar sus algoritmos (aunque hay modelos, como las licencias de Creative Commons, que permiten hacer distinciones entre uso comercial y no comercial). En un escenario de verdadero acceso abierto y universal, los acuerdos de licencia como el de T&F y Microsoft serían irrelevantes, o tal vez se interpretarían como un gesto de gratitud por parte de los desarrolladores de IA hacia los productores de la tradicional inteligencia no artificial.
Sin embargo, la verdadera hipocresía radica en que los grandes conglomerados de editoriales académicas, que ahora buscan licenciar nuestros datos de investigación para entrenar tecnosistemas de IA generativa, han adoptado al mismo tiempo una estrategia de tierra arrasada contra cualquier iniciativa que aumente el acceso público directo a la investigación que publicamos en sus revistas. Todos recordamos cuando otro gigante editorial académico, Elsevier, utilizó una combinación de amenazas legales (Taylor 2013), procesos judiciales (Cushing 2015) y adquisiciones corporativas (Masnick 2016) para frustrar cualquier intento de los investigadores y autores de compartir sus propias publicaciones. La comunidad académica manifestó su clara indignación, y mi propio sistema universitario, la Universidad de California, canceló el contrato multimillonario que tenía con Elsevier (Fox 2019) precisamente porque la empresa se negó a alinearse con la política de acceso abierto de la UC, de acuerdo con la cual la investigación que realizamos los miembros de su cuerpo docente debe estar disponible para el público global. Muchas otras universidades de investigación siguieron el ejemplo de la UC, y como Cory Doctorow informó hace unas semanas, las bibliotecas universitarias han demostrado que pueden prosperar sin Elsevier (Doctorow 2024).
Incluso si las 3Cs —consentimiento, crédito y compensación— no se ajustan perfectamente a los paradigmas de acceso abierto (un tema que ya he abordado [Zimmer 2020]), al menos brindan un marco para una discusión más amplia sobre la relación entre la publicación académica y los modelos de IA generativa. La investigación académica no debería necesitar pasar por el ingenio de un modelo de IA generativa de marca registrada para ser accesible y estar disponible para el público. Si a las editoriales académicas realmente les preocupara la calidad y la accesibilidad del ecosistema informativo que compartimos, no estarían presumiendo ante accionistas e inversionistas sobre sus nuevos acuerdos con los gigantes tecnológicos. En cambio, estarían anunciando planes para eliminar las tarifas de acceso abierto para los artículos académicos, remunerar a los autores, revisores y editores por su contribución a la investigación académica, y desarrollar sistemas que les permitan a los autores decidir libremente si consienten que sus materiales de investigación académica sean utilizados por la IA para fines comerciales.
Le corresponde a Informa explicarle al mundo por qué ha optado por entregar los resultados de nuestra investigación académica a un modelo de marca registrada para generar nuevas “inferencias”, en lugar de buscar acuerdos que expandan el acceso abierto, eliminen las barreras financieras al conocimiento académica y permitan la difusión pública de todo el conocimiento contenido en su base de datos editorial.
Septiembre de 2024
Traducido por Erna von der Walde
LISTA DE REFERENCIAS
Akers, Torey, 2024. «US artists score victory in landmark AI copyright case.» The Art Newspaper, 14 August. <https://www.theartnewspaper.com/2024/08/15/us-artists-score-victory-in-landmark-ai-copyright-case>.
Authors Guild, 2023. «The Authors Guild, John Grisham, Jodi Picoult, David Baldacci, George R.R. Martin, and 13 Other Authors File Class-Action Suit Against OpenAI.» Press Release, 20 September. <https://authorsguild.org/news/ag-and-authors-file-class-action-suit-against-openai/>.
Axon, Samuel, 2021. «96% of US users opt out of app tracking in iOS 14.5, analytics find.» ars technica, 7 May. <https://arstechnica.com/gadgets/2021/05/96-of-us-users-opt-out-of-app-tracking-in-ios-14-5-analytics-find/>.
Battersby, Matilde, 2024. «Academic authors ‘shocked’ after Taylor & Francis sells access to their research to Microsoft AI,» The Bookseller. 19 July. <https://www.thebookseller.com/news/academic-authors-shocked-after-taylor–francis-sells-access-to-their-research-to-microsoft-ai>.
Cushing, Tim, 2015. «Elsevier Granted Injunction Against Research Paper ‘Pirate Site;’ Which Immediately Moves To New Domain To Dodge It.» techdirt.com, 9 December. <https://www.techdirt.com/2015/12/09/elsevier-granted-injunction-against-research-paper-pirate-site-which-immediately-moves-to-new-domain-to-dodge-it/>.
Doctorow, Cory, 2024. «MIT libraries are thriving without Elsevier.» pluralistic.org, 16 August. <https://pluralistic.net/2024/08/16/the-public-sphere/#not-the-elsevier>.
Fox, Alex and Jeffery Brainard, 2019. «University of California boycotts publishing giant Elsevier over journal costs and open access.» www.science.org, 28 February. <https://www.science.org/content/article/university-california-boycotts-publishing-giant-elsevier-over-journal-costs-and-open>.
Grynbaum, Michael M. and Ryan Mac, 2023. «The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work.» The New York Times, 27 December. <https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html>.
Informa PLC, 2024. «Market Update» Press Release, 8 May. <https://www.informa.com/globalassets/documents/investor-relations/2024/informa-plc—market-update.pdf>.
Lara Guzmán, Rigoberto, Ranjit Singh, and Patrick Davison, 2022. «Parables of AI in/from the Majority World: An Anthology.» Data & Society, 7 December. <https://datasociety.net/library/parables-of-ai-in-from-the-majority-world-an-anthology/>.
Masnick, Mike, 2016. «Disappointing: Elsevier Buys Open Access Academic Pre-Publisher SSRN.» techdirt.com, 17 May. <https://www.techdirt.com/2016/05/17/disappointing-elsevier-buys-open-access-academic-pre-publisher-ssrn/>.
Palmer, Kathryn, 2024. «Taylor & Francis AI Deal Sets ‘Worrying Precedent’ for Academic Publishing,» Inside Higher Ed, 29 July. <https://www.insidehighered.com/news/faculty-issues/research/2024/07/29/taylor-francis-ai-deal-sets-worrying-precedent>.
Reisner, Alex. «These 183,000 Books Are Fueling the Biggest Fight in Publishing and Tech.» The Atlantic, 25 September. <https://www.theatlantic.com/technology/archive/2023/09/books3-database-generative-ai-training-copyright-infringement/675363/>.
Robertson, Adi, 2024. «Satya Nadella says the explicit Taylor Swift AI fakes are ‘alarming and terrible.’» The Verge, 26 January. <https://www.theverge.com/2024/1/26/24052196/satya-nadella-microsoft-ai-taylor-swift-fakes-response>.
Schaul, Kevin, Szu Yu Chen and Nitasha Tiku, 2024. «Inside the secret list of websites that make AI like ChatGPT sound smart.» The Washington Post, 19 April. <https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/>.
Smith, Brad, 2023. «Microsoft announces new Copilot Copyright Commitment for customers.» blogs.microsoft.com, 7 September. <https://blogs.microsoft.com/on-the-issues/2023/09/07/copilot-copyright-commitment-ai-legal-concerns/>.
SOA Policy Team, 2024. «The SoA responds to Taylor & Francis Group’s sale of data to develop AI.» The Society of Authors, 22 July. <https://societyofauthors.org/2024/07/22/the-soa-responds-to-taylor-francis-groups-sale-of-data-to-develop-ai/>.
Taylor, Mike, 2013. «Elsevier is taking down papers from Academia.edu.» svpow.com, 6 December. <https://svpow.com/2013/12/06/elsevier-is-taking-down-papers-from-academia-edu/>.
Wood, Heloise, 2024. «Wiley and Oxford University Press confirm AI partnerships as Cambridge University Press offers ‘opt-in’.» The Bookseller, 1 August. <https://www.thebookseller.com/news/wiley-cambridge-university-press-and-oxford-university-press-confirm-ai-partnerships>.
Zimmer, Zac, 2020. «Between Abundance and Appropriation: Indeterminate Critiques of Global IP Schemes.» In Piracy and Intellectual Property in Latin America: Rethinking the Common Good, edited by Víctor Goldgel-Carballo and Juan Poblete. Routledge.
Zac Zimmer
(Profesor Asociado de Literatura, UC Santa Cruz) es un académico interdisciplinario especializado estudios hemisféricos de las Américas en las áreas de literatura, cultura y tecnología. Es autor de First Contact: Speculative Visions of the Conquest of the Americas (Northwestern University Press, 2025). En la actualidad, su investigación se centra en la infraestructura de los tecnosistemas, y es co-facilitador del grupo de lectura Ética y Astrobiología, que forma parte de la Iniciativa de Astrobiología de UCSC. En UC Santa Cruz, dicta cursos sobre literatura latinoamericana, ciencia ficción, ética y tecnología, y la poética de la infraestructura californiana.