O Ingênio da Inteligência

This material is also available in: Español

Este artigo, juntamente com todos os outros artigos publicados nesta edição do Journal of Latin American Cultural Studies, será usado para treinar os produtos de inteligência artificial (IA) da Microsoft.

É importante ressaltar que a comunidade acadêmica acabou obtendo essa informação por meio de um comunicado à imprensa emitido aos investidores pela Informa, a casa publicadora das editoras acadêmicas Taylor & Francis, em 8 de maio de 2024 (Informa 2024). Não houve nenhum anúncio feito aos escritores, pesquisadores nem à equipe editorial que compõe a força vital dos mais de 2.700 periódicos e publicações acadêmicas da Taylor & Francis. Certamente ninguém deu aviso ao conselho editorial do JLACS.

Conforme ao relatado em The Bookseller (Battersby 2024) e Inside Higher Ed (Palmer 2024), o Acordo de Parceria de IA dá à Microsoft “acesso não exclusivo ao Advanced Learning Content”, por uma pauta inicial de US$ 10 milhões, com pagamentos anuais de total não divulgado por mais três anos. Quando o acordo com a Informa virou conhecimento público, outras publicações (SOA Policy Team 2024) confirmaram que Wiley, Cambridge UP e Oxford UP (Wood 2024) estão também em negociações para licenciar conteúdo acadêmico para treinamento da IA.

Num sentido, esse anúncio fornece certo alívio: todos nós deveríamos querer que os chatbots de IA e os modelos nos quais eles são construídos fossem informados pela pesquisa revisada por pares da mais alta qualidade, posto que definitivamente não queremos que esses modelos façam inferências baseados em postagens de trolls do 4chan, de PDFs piratas e digitalizados com OCR de baixa qualidade ou qualquer outro tipo de coleção de dados da internet em seu treinamento inicial. Mas nós que pesquisaramos, escreveramos, revisaramos e finalmente publicaramos o próprio conteúdo que está sendo licenciado, devemos também nos perguntar: onde ficamos nós nesse acordo?

O status de direitos autorais do material usado para treinar os modelos de linguagem grandes (LLMs) como o ChatGPT associado à Microsoft ainda é uma questão não resolvida e será testada em um futuro próximo por procesos legais em andamento nos Estados Unidos levados por grupos de artistas (Akers 2024), autores (The Authors Guild 2023) e editores de notícias (Grynbaum & Mac 2023). Reportagens importantes do Washington Post (Schaul 2024) e The Atlantic (Reisner 2023) já mostraram que os conjuntos de dados de treinamento do modelo de base como The Pile e o Colossal Cleaned Crawled Corpus (C4) usados para construir os modelos de chatbot já no passado continham vasto material pirateado. Um detalhe marcante revelado por essa reportagem é que o conjunto de dados C4 contém 200 milhões de exemplos do símbolo de direitos autorais ©, que — como os jornalistas observam secamente (Schaul 2024) — denota inequivocamente um trabalho registrado como propriedade intelectual.

Na verdade, uma razão por trás da parceria da Microsoft com a OpenAI é expandir seu Compromisso de Direitos Autorais do Cliente (Smith 2023) “para defender os clientes e pagar por quaisquer julgamento adverso caso eles forem processados por violação de direitos autorais pelo uso dos produtos do Serviço OpenAI do Azure”. Em outras palavras, as empresas de IA têm garantido a seus clientes que, caso os tribunais ou reguladores considerasem que os LLMs violam direitos autorais, a Microsoft cobrirá as contas legais de seus clientes. Comparado aos bilhões de dólares que a Microsoft comprometeu publicamente com a OpenAI, uma proteção de US$ 10 milhões para conseguir um acordo de licenciamento com a Informa faz todo o sentido. A Informa pode ser nova no negócio de vender dados de treinamento para modelos de IA generativos, porém editoras acadêmicas como Taylor & Francis e Routledge já lidam com licenciamento em massa… é assim que bibliotecas universitárias compram acesso a clusters temáticos de periódicos acadêmicos da T&F. (E esses são os mesmos acordos de licenciamento que mantêm a pesquisa por trás de paywalls, escondidos da maioria do mundo! [Guzmán 2022]).

Sabemos pouquíssimo sobre o conteúdo desses novos acordos de licenciamento de IA, mas as vagas promessas feitas no comunicado da Informa à imprensa não abordar no mínimo as reclamações morais nem aos processos judiciais dos criadores do conteúdo contra o uso indiscriminado do seu trabalho intelectual para gerar lucros para terceiros. Alguns leitores do JLACS podem estar familiarizados com estruturas de Conhecimento Tradicional (TK) como os 3 Cs — Consentimento, Crédito, Compensação — que podem ser usados para avaliar parcerias baseadas em IP com detentores de saberes tradicionais. Não obstante questões de compensação possam parecer meramente estranhas para as mentes acadêmicas, estamos falando de um contrato de US$ 10 milhões. O dinheiro está indo para algum lugar, e duvido que seja pagamentos de royalties para nós, autores.

Em referência ao Consentimento e o Crédito: essas questões são bem mais sutis quando debatidas dentro da academia. Por um lado, as citas são a moeda do reino acadêmico pelo que tudo degrade aos mecanismos de concessão de crédito de citação e referência acadêmica seria antitético à busca acadêmica de conhecimento. E é duvidoso que os acadêmicos consintam conscientemente e de propósito que seu trabalho seja usado, sem citação, para construir tecnologias cujo caso de uso mais popular pode inclusive ser gerar pornografia não consensual (Robertson 2024). Além disso, sabemos que a maioria das indústrias de coleta de dados evita mecanismos diretos de consentimento tipo “opt-In”, precisamente porque, quando é oferecida a chance, quase universalmente se recusam a se inscrever às políticas de coleção de dados (isso acabou enfaticamente demonstrado quando a Apple permitiu que os usuários do iPhone tivessem a possibilidade de participar ou não no rastreamento de aplicativos [Axon 2021], e 96% de seus usuários negaram-se.)

Por outro lado, a pesquisa acadêmica é uma categoria especial, distinta das obras de arte, textos literários ou artigos de notícias no centro do litígio pendente contra empresas de IA. A pesquisa acadêmica é subsidiada principalmente pelo público, alem que poucas são as exições quando a pesquisa é considerada informação classificada inadequada para divulgação pública. Pelo contrário, a pesquisa acadêmica deve ser compartilhada, lida, replicada, confirmada ou desafiada. Eu publico minha pesquisa porque quero que ela seja analisada e utilizada como base para novos desenvolvimentos; meu consentimento é mais do que implícito, é consustancial ao ato de publicar meu trabalho. Esse consentimento é constroido na base que seja quem for usar minha pesquisa me dará crédito, mesmo que seu objetivo seja refutar tudo o que eu pudesse jamais ter dito.

A revisão acadêmica por pares é um sistema profundamente intensivo em recursos, razão pela qual os governos federais, estaduais e locais acostumam subsidiar universidades de pesquisa. Independentemente que sua pesquisa acabe atrás de qualquer paywall, os acadêmicos quase sempre compartilharão livre e avidamente cópias eletrônicas de seus artigos com acadêmicos que não tem acesso institucional ou a capacidade de pagar o preço da inscrição ao serviço. Esse espírito, produto da mistura especial de generosidade e obrigação com nossas comunidades de pesquisa internacional, também visa-se numa número acrescentado de acadêmicos ao redor do globo que apoia modelos de acesso aberto para publicação e compartilhamento de pesquisa acadêmica.

E esse é o aspecto mais desconfortante desse acordo de licenciamento. Muitos leitores do JLACS concordariam que, em um mundo ideal, a pesquisa acadêmica básica seria subsidiada publicamente, e os resultados estariam disponíveis livre e publicamente para todos, sem obstáculos. No entanto, nesse mundo ideal de acesso aberto não haveria obstáculo algum contra que desenvolvedores de IA continuarem seu descarte em massa desse conteúdo de acesso aberto para treinar seus algoritmos (embora modelos de licençamento aberto como as licenças Creative Commons permitam differenciar entre o uso comercial e o não comercial). Em um cenário de acesso aberto verdadeiro e universal, acordos de licenciamento como o referenciado aqui entre T&F e Microsoft seriam redundantes e irrelevantes, ou talvez interpretados como uma gorjeta paga pelos desenvolvedores de IA aos artesãos produtores da boa e clásica inteligência não artificial.

Mas a verdadeira hipocrisia do acordo é que os grandes conglomerados de editoras acadêmicas que agora buscam licenciar nossos dados de pesquisa para treinar tecno-sistemas de IA generativa recentemente adotaram uma estratégia de “terra queimada” contra qualquer proposta de liberação ou acesso público livre à pesquisa que publicamos em seus periódicos. Todos nós nos lembramos quando o outro gigante de periódicos acadêmicos, a Elsevier, usou uma mistura de ameaças legais (Taylor 2013), ações judiciais (Cushing 2015) e aquisições corporativas (Masnick 2016) para negar tentativas de pesquisadores e autores de compartilhar suas próprias publicações de pesquisa. Acadêmicos ficaram indignados, e meu próprio sistema universitário, a Universidade da Califórnia, cancelou seu contrato multimilionário com a Elsevier (Fox 2019) já que a empresa recusou-se a se conciliar com a política da Universidade da Califórnia de que seu corpo docente disponibilizasse nossa pesquisa para um público global. Muitas outras universidades de pesquisa seguiram o exemplo da UC e, como Cory Doctorow relatou há apenas algumas semanas, as bibliotecas universitárias estão prosperando sem a Elsevier (Doctorow 2024).

Embora os 3Cs — consentimento, crédito, compensação — sejam um ajuste desconfortável com paradigmas de acesso aberto (uma questão que explorei em outro lugar [Zimmer 2020]), eles pelo menos fornecem uma estrutura para uma discussão mais detalhada sobre a relação entre a publicação acadêmica e os modelos de IA generativa. A pesquisa acadêmica não deveria precisar passar pelo moinho de um modelo de IA generativa proprietário para ser acessível ou estar disponível ao público. Se por acaso os editores acadêmicos realmente se importassem com a qualidade e acessibilidade ao nosso ecossistema informacional compartilhado, eles não estariam se gabando com acionistas e investidores sobre seus acordos milhonarios com a Big Tech. Ao contrario, eles estariam anunciando planos para eliminar taxas de publicação de acesso aberto, para pagar aos autores, revisores e editores pelas revisões acadêmicas, e para desenvolver um sistema opcional de comercio do material de pesquisa acadêmica para uso em treinamento de IA.

A responsabilidade da Informa é, no mínimo, explicar ao mundo por que eles preferem alimentar os resultados de nossa pesquisa acadêmica para que um modelo proprietário de IA possa gerar novas “inferências”, quando ao contrario disso poderiam estar buscando acordos para expandir o acesso aberto, para eliminar barreiras financeiras ao acesso à pesquisa acadêmica e para divulgar publicamente todo o conhecimento contido em seu banco de dados.

Setembro 2024
Tradução de Arno Argueta.
Imagem criada por ChatGPT.

Lista de referências

Akers, Torey, 2024. “US artists score victory in landmark AI copyright case.” The Art Newspaper, 14 August. <https://www.theartnewspaper.com/2024/08/15/us-artists-score-victory-in-landmark-ai-copyright-case>.
Authors Guild, 2023. “The Authors Guild, John Grisham, Jodi Picoult, David Baldacci, George R.R. Martin, and 13 Other Authors File Class-Action Suit Against OpenAI.” Press Release, 20 September. <https://authorsguild.org/news/ag-and-authors-file-class-action-suit-against-openai/>.
Axon, Samuel, 2021. “96% of US users opt out of app tracking in iOS 14.5, analytics find.” ars technica, 7 May. <https://arstechnica.com/gadgets/2021/05/96-of-us-users-opt-out-of-app-tracking-in-ios-14-5-analytics-find/>.
Battersby, Matilde, 2024. “Academic authors ‘shocked’ after Taylor & Francis sells access to their research to Microsoft AI,” The Bookseller. 19 July. <https://www.thebookseller.com/news/academic-authors-shocked-after-taylor–francis-sells-access-to-their-research-to-microsoft-ai>.
Cushing, Tim, 2015. “Elsevier Granted Injunction Against Research Paper ‘Pirate Site;’ Which Immediately Moves To New Domain To Dodge It.” techdirt.com, 9 December. <https://www.techdirt.com/2015/12/09/elsevier-granted-injunction-against-research-paper-pirate-site-which-immediately-moves-to-new-domain-to-dodge-it/>.
Doctorow, Cory, 2024. “MIT libraries are thriving without Elsevier.” pluralistic.org, 16 August. <https://pluralistic.net/2024/08/16/the-public-sphere/#not-the-elsevier>.
Fox, Alex and Jeffery Brainard, 2019. “University of California boycotts publishing giant Elsevier over journal costs and open access.” www.science.org, 28 February. <https://www.science.org/content/article/university-california-boycotts-publishing-giant-elsevier-over-journal-costs-and-open>.
Grynbaum, Michael M. and Ryan Mac, 2023. “The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work.” The New York Times, 27 December. <https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html>.
Informa PLC, 2024. “Market Update” Press Release, 8 May. <https://www.informa.com/globalassets/documents/investor-relations/2024/informa-plc—market-update.pdf>.
Lara Guzmán, Rigoberto, Ranjit Singh, and Patrick Davison, 2022. “Parables of AI in/from the Majority World: An Anthology.” Data & Society, 7 December. <https://datasociety.net/library/parables-of-ai-in-from-the-majority-world-an-anthology/>.
Masnick, Mike, 2016. “Disappointing: Elsevier Buys Open Access Academic Pre-Publisher SSRN.” techdirt.com, 17 May. <https://www.techdirt.com/2016/05/17/disappointing-elsevier-buys-open-access-academic-pre-publisher-ssrn/>.
Palmer, Kathryn, 2024. “Taylor & Francis AI Deal Sets ‘Worrying Precedent’ for Academic Publishing,” Inside Higher Ed, 29 July. <https://www.insidehighered.com/news/faculty-issues/research/2024/07/29/taylor-francis-ai-deal-sets-worrying-precedent>.
Reisner, Alex. “These 183,000 Books Are Fueling the Biggest Fight in Publishing and Tech.” The Atlantic, 25 September. <https://www.theatlantic.com/technology/archive/2023/09/books3-database-generative-ai-training-copyright-infringement/675363/>.
Robertson, Adi, 2024. “Satya Nadella says the explicit Taylor Swift AI fakes are ‘alarming and terrible.’” The Verge, 26 January. <https://www.theverge.com/2024/1/26/24052196/satya-nadella-microsoft-ai-taylor-swift-fakes-response>.
Schaul, Kevin, Szu Yu Chen and Nitasha Tiku, 2024. “Inside the secret list of websites that make AI like ChatGPT sound smart.” The Washington Post, 19 April. <https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/>.
Smith, Brad, 2023. “Microsoft announces new Copilot Copyright Commitment for customers.” blogs.microsoft.com, 7 September. <https://blogs.microsoft.com/on-the-issues/2023/09/07/copilot-copyright-commitment-ai-legal-concerns/>.
SOA Policy Team, 2024. “The SoA responds to Taylor & Francis Group’s sale of data to develop AI.” The Society of Authors, 22 July. <https://societyofauthors.org/2024/07/22/the-soa-responds-to-taylor-francis-groups-sale-of-data-to-develop-ai/>.
Taylor, Mike, 2013. “Elsevier is taking down papers from Academia.edu.” svpow.com, 6 December. <https://svpow.com/2013/12/06/elsevier-is-taking-down-papers-from-academia-edu/>.
Wood, Heloise, 2024. “Wiley and Oxford University Press confirm AI partnerships as Cambridge University Press offers ‘opt-in’.” The Bookseller, 1 August. <https://www.thebookseller.com/news/wiley-cambridge-university-press-and-oxford-university-press-confirm-ai-partnerships>.
Zimmer, Zac, 2020. “Between Abundance and Appropriation: Indeterminate Critiques of Global IP Schemes.” In Piracy and Intellectual Property in Latin America: Rethinking the Common Good, edited by Víctor Goldgel-Carballo and Juan Poblete. Routledge.
Zac Zimmer
+ posts

(Professor Associado de Literatura, UC Santa Cruz) é um acadêmico interdisciplinar especializado em estudos hemisféricos das Américas nas áreas de literatura, cultura e tecnologia. Ele é o autor de First Contact: Speculative Visions of the Conquest of the Americas (Northwestern University Press, 2025). Atualmente, sua pesquisa se concentra na infraestrutura do tecnossistema e ele é co-facilitador do grupo de leitura Eticae Astrobiologia. a, que faz parte do Iniciativa de Astrobiologia da UCSC. Na UC Santa Cruz, ele leciona cursos sobre literatura latino-americana, ficção científica, ética e tecnologia, e a poética da infraestrutura da Califórnia.