Bibliotecas e Livros alimentando a IA: conjuntos textuais de acesso público orientados à pesquisa
No dia 29 de abril de 2026 foi lançado o Relatório final do Public Interest Corpus White Paper – April 27 2026.
O relatório é fruto de mais de um ano de trabalho apoiado pela Fundação Mellon, no qual questiona-se como as bibliotecas de pesquisa podem disponibilizar dados de livros para treinamento de IA e pesquisa computacional de maneiras que atendam ao interesse público, em vez de reforçar a atual concentração de acesso a textos em um pequeno número de atores comerciais com muitos recursos.
Esta é uma tradução livre da matéria publicada pela Aliança de Autores e Dave Hansen.
Introdução ao Relatório
O rápido avanço da inteligência artificial representa uma das transformações tecnológicas mais significativas do século XXI, com profundas implicações para a pesquisa, a educação, a criatividade e a vida cívica. No entanto, o desenvolvimento e a implementação de sistemas de IA estão cada vez mais concentrados em um pequeno número de empresas de tecnologia bem financiadas.
Essa concentração decorre não apenas do acesso ao capital e das consequentes vantagens em infraestrutura computacional, mas também do acesso assimétrico e não regulamentado aos dados de treinamento.
Embora o acesso a conjuntos de dados em larga escala seja o principal pré-requisito para modelos de linguagem de última geração, acadêmicos e pesquisadores têm chamado a atenção para a importância da qualidade dos dados em corpora textuais ** usados para o treinamento de IA.
Muitos apontaram para a necessidade de conjuntos de dados curados e de alta qualidade, especialmente de coleções de bibliotecas, que contêm o registro mais abrangente e editorialmente refinado da humanidade em conhecimento, cultura e expressão.
Atualmente, muitos pesquisadores acadêmicos têm o acesso a esses dados negado para suas próprias pesquisas em IA devido a uma variedade de restrições legais, técnicas e financeiras. Nosso trabalho neste projeto demonstrou a necessidade de corpora textuais de acesso público, orientados à pesquisa e prontos para computação, para apoiar o trabalho acadêmico e o desenvolvimento de IA sem fins lucrativos.
A iniciativa Public Interest Corpus responde a esse desequilíbrio existente e necessidade premente, aproveitando a posição única das bibliotecas de pesquisa para expandir o acesso a dados de livros para treinamento de IA acadêmico e sem fins lucrativos e pesquisa computacional, garantindo assim que instituições e indivíduos com menos recursos possam obter acesso equitativo a fontes de dados valiosas.
_____________________________________________
Já falamos sobre o ponto de partida deste projeto: os livros são hoje amplamente reconhecidos como alguns dos dados de treinamento de mais alta qualidade disponíveis para sistemas de IA — eles refletem processos editoriais contínuos e capturam registros históricos profundos do pensamento humano em diversas disciplinas e idiomas.
Bibliotecas de pesquisa os detêm em grande escala, muitas vezes já em formato digital. Mas o acesso a esses dados para o desenvolvimento de IA tem sido, até agora, amplamente determinado por quais atores comerciais têm os recursos para licenciá-los, extraí-los ou adquiri-los de alguma outra forma. Pesquisadores acadêmicos e organizações de interesse público de menor porte têm ficado, em sua maioria, à margem dessa discussão.
O projeto foi concebido para investigar se as bibliotecas poderiam mudar essa realidade, organizadas em torno de sua missão de interesse público e operando dentro das estruturas legais que já regem seu trabalho.
Ao longo de 2025, interagimos com pesquisadores, bibliotecários, autores, editores e tecnólogos por meio de workshops na Northeastern University, na NYU e no Gabinete da Reitoria da Universidade da Califórnia, além de apresentações no CNI, na Charleston Conference, no AI4Libraries e em outros eventos. O relatório sintetiza o que aprendemos sobre serviços, governança, estratégia jurídica e sustentabilidade. Algumas das principais conclusões:
As partes interessadas solicitaram consistentemente um serviço orientado para o acesso de pesquisadores acadêmicos e de organizações sem fins lucrativos, com acesso programático em massa para trabalhos computacionais e acesso voltado para a descoberta para estudantes e membros do público em geral.
Em vez de construir algo novo do zero, o relatório recomenda a parceria com um serviço de pesquisa já existente pertencente à academia — o HathiTrust, por exemplo, é um candidato natural, dado o alinhamento de sua missão, infraestrutura e relações de colaboração estabelecidas em toda a comunidade de bibliotecas de pesquisa.
A coordenação do fornecimento de recursos entre instituições, por exemplo, no que diz respeito ao envolvimento com parceiros comerciais de digitalização, deve estar inserida nessa estrutura, aproveitando as lições aprendidas em trabalhos anteriores, como no projeto Google Books, em que os termos, por vezes, restringiram o desenvolvimento de serviços bibliotecários subsequentes mais do que o necessário.
Nossa recomendação é que o Public Interest Corpus, focado em pesquisa não comercial e usos acadêmicos, opere estritamente dentro dessa linha estabelecida de casos, exercendo cuidado adicional quando características específicas de um uso — por exemplo, restrições contratuais de acordos de digitalização anteriores, aplicações comerciais subsequentes, verificação de pesquisadores independentes — justificarem atenção redobrada.
Este relatório encerra a fase de planejamento. O próximo passo é a implementação, que inclui identificar a instituição ideal e manter o diálogo com autores, editores e pesquisadores sobre como esse recurso deve evoluir. Nada disso é novidade para bibliotecas.
O que é novo é a escala e o momento, e a oportunidade de garantir que a próxima geração de ferramentas de IA seja construída sobre uma base que reflita o foco no apoio à pesquisa, à produção acadêmica e ao aprendizado.
Para isso, são necessários recursos, e estamos trabalhando para garantir o financiamento necessário para dar início a esse projeto (fiquem atentos para mais novidades nos próximos meses).
Agradecemos à Fundação Mellon pelo apoio a este trabalho e aos muitos membros do conselho consultivo, participantes dos workshops e entrevistados que contribuíram para a elaboração deste relatório. Em meu nome, sou grato ao meu co-investigador principal, Dan Cohen, da Northeastern University, a Thomas Padilla (atualmente na University of Nebraska-Lincoln) e a Giulia Taurino pelo excelente trabalho neste projeto. Você pode visitar o site do projeto em https://www.publicinterestcorpus.org .
Clique aqui nesta versão que permite a inclusão de comentários.
** Corpora textuais são grandes conjuntos estruturados de textos autênticos, orais ou escritos, armazenados eletronicamente para análise linguística e processamento de linguagem natural (PLN). Eles representam o uso real da língua, sendo anotados ou brutos, fundamentais para estudos de linguística, tradução, criação de dicionários e treinamento de IA.
== REFERÊNCIAS ==
[1] HANSEN, Dave; COHEN, Dan; PADILLA, Thomas; TAURINO, Giulia; Public Interest Corpus. Public Interest Corpus White Paper – April 27 2026. Disponível em: https://hdl.handle.net/2047/D20855959 Acesso em: 02 maio 2026.
[2] AUTHORS ALLIANCE; HANSEN, DAVE. The Public Interest Corpus: A Framework for Implementation. April 29, 2026. Disponível em: https://authorsalliance.substack.com/p/the-public-interest-corpus-final Acesso em: 02 maio 2026.
_______________________________________________________

