Busca semântica multilíngue: superando as barreiras linguísticas na ciência
Superando as barreiras linguísticas na ciência por meio da busca semântica multilíngue – 8 de setembro de 2025, por Lautaro Matas e Kathleen Shearer
Introdução
Diariamente, pesquisadores do mundo todo publicam conhecimento em centenas de idiomas — espanhol na Argentina, português no Brasil, árabe no Egito, japonês no Japão, suaíli no Quênia.
Essa diversidade linguística não é um detalhe; é a essência da pesquisa global. No entanto, quando buscamos esse conhecimento, as ferramentas disponíveis se comportam como se apenas algumas línguas fossem realmente relevantes.
Uma vasta quantidade de pesquisas valiosas permanece oculta simplesmente por ter sido escrita em outro idioma. Isso ocorre porque a maioria dos sistemas de busca ainda se baseia em pesquisa por palavras-chave — que busca a correspondência exata das palavras da sua consulta com as palavras exatas em um índice. Isso funciona bem em um ambiente monolíngue, mas falha em um mundo multilíngue.
Mas, e se a busca funcionasse de forma diferente? E se você pudesse digitar uma consulta no seu próprio idioma — cambio climático , énergies renouvelables , 再生可能エネルギー — e encontrar resultados relevantes em inglês, francês, espanhol, japonês ou outros idiomas, sem precisar traduzir uma palavra sequer?
Essa é a promessa da busca semântica multilíngue : buscar não por palavras exatas, mas por significado.
Em junho de 2025, a Confederation of Open Access Repositories COAR iniciou um projeto para investigar o potencial da busca semântica multilíngue no contexto da literatura acadêmica e desenvolver um modelo conceitual que pudesse aplicar essa tecnologia em repositórios e suas agregações de texto completo.
Esse trabalho envolveu entrevistas com especialistas da área, uma revisão das opções técnicas atuais, bem como um breve levantamento sobre as práticas atuais no ecossistema acadêmico.
Esses esforços se baseiam no trabalho fundamental realizado nos últimos anos pelo Grupo de Trabalho do COAR sobre Apoio ao Multilinguismo e Conteúdo em Línguas Não Inglesas , e também em provas de conceito iniciais realizadas recentemente na América Latina pela LA Referencia e pelo IBICT (Instituto Brasileiro de Informação em Ciência e Tecnologia). Esta postagem no blog apresenta uma visão geral de nossas deliberações e conclusões iniciais e da próxima fase do nosso trabalho.
Esta é uma tradução livre da matéria publicada na COAR News [1] de setembro de 2025.
O problema com a busca atual
A maioria dos sistemas de descoberta é construída em torno da correspondência de palavras-chave. Eles tentam alinhar as palavras exatas em uma consulta com as palavras exatas armazenadas em títulos, resumos e metadados.
Esse método é muito rígido — pressupõe que o usuário conheça o vocabulário preciso usado no registro. Mesmo em um único idioma, isso cria lacunas: um artigo sobre geração de energia sustentável, por exemplo, pode nunca aparecer como resposta a uma busca por energia renovável .
Mas o problema se agrava muito em contextos multilíngues, porque a maioria dos índices de busca é projetado com ferramentas de processamento — tokenizadores, stemmers, regras de classificação — criados para um único idioma.
Eles funcionam razoavelmente bem em inglês e, às vezes, em outro idioma importante, mas não conseguem lidar com a diversidade de estruturas linguísticas em centenas de idiomas.
Como resultado, uma vasta quantidade de pesquisas permanece efetivamente invisível, a menos que o pesquisador consiga prever a forma exata das palavras no mesmo idioma para o qual o sistema foi desenvolvido.
O resultado? Pesquisadores, profissionais e formuladores de políticas ficam sem acesso a conhecimentos que poderiam fazer uma diferença real. Isso não é apenas uma limitação técnica — é uma desigualdade estrutural.
Problemas típicos de descoberta de palavras-chave
– Viés de palavra exata: se sua busca for “energia renovável”, você perderá conteúdo rotulado como “geração de energia sustentável”.
– Barreiras linguísticas: uma busca em espanhol por “cambio climático ” não retornará artigos em inglês sobre “mudanças climáticas”.
– Viés de idioma dominante: os algoritmos de classificação frequentemente priorizam o conteúdo em inglês, mesmo quando o material em outros idiomas é altamente relevante.
– Scripts não latinos, como chinês, árabe ou russo, podem ficar invisíveis a menos que as consultas sejam digitadas exatamente da maneira correta.
Uma abordagem diferente: buscar pelo significado
Em vez de perguntar “Estas palavras aparecem neste documento?” , a pesquisa semântica pergunta “Este documento expressa a mesma ideia que a consulta — independentemente do idioma ou da formulação?”.
Isso é possível graças a embeddings multilíngues (multilínguas incorporadas) — modelos de aprendizado de máquina que representam frases como vetores em um “espaço de significado” compartilhado. Frases equivalentes em diferentes idiomas — renewable energy , energía renovable , énergie renouvelable — são colocadas próximas umas das outras.
O resultado
– Os sistemas já não dependem de enormes tesauros com curadoria manual.
– Um pesquisador pode consultar sua própria linguagem e obter resultados de muitas outras.
– Diferentes formulações de conceitos semelhantes e sinônimos não impedem a obtenção de resultados relevantes.
A busca semântica não substitui a busca por palavras-chave. Em vez disso, ela adiciona uma nova e poderosa funcionalidade de busca, resultando em um sistema híbrido que combina a precisão das palavras-chave com a abrangência da descoberta baseada em significado.
Experimentos iniciais: sinais promissores
Provas de conceito realizadas em diferentes redes de repositórios — como LA Referencia na América Latina e IBICT no Brasil — já testaram a busca semântica multilíngue em pequena escala. A configuração foi simples: gerar embeddings para títulos e resumos, executar buscas de similaridade vetorial e comparar esses resultados com correspondências tradicionais por palavras-chave.
Os resultados foram encorajadores:
– A recuperação de informações em vários idiomas pareceu natural. Os usuários podiam digitar consultas em um idioma e encontrar resultados relevantes em outros.
– Maior visibilidade para línguas sub-representadas. Conteúdo em português, árabe ou japonês apareceu com mais frequência.
– Compatibilidade com sistemas existentes. Os protótipos funcionaram em conjunto com a coleta e indexação de metadados padrão sem interrupções.
Ainda existem desafios: o desempenho varia conforme o idioma, os embeddings (incorporados) exigem armazenamento e processamento adicionais, e avaliar a relevância entre diferentes idiomas é complexo. Mas a prova de conceito é clara: a abordagem funciona.
Caminhos propostos para a adoção
Em vez de cada infraestrutura adotar seus próprios códigos multilíngues incorporados, propomos implementar uma abordagem baseada na comunidade que nos permita trabalhar juntos para manter uma coleção compartilhada de embeddings que possa ser usada por todos. E existem três caminhos práticos que poderiam ser implementados nesse contexto comunitário:
1. O “Embedding Commons”. Repositórios e redes compartilham um modelo multilíngue comum e um formato de troca, gerando ou reutilizando embeddings localmente.
– Ponto forte: máxima interoperabilidade e respeito à soberania institucional.
– Desafio: requer forte coordenação e controle de versões.
2. Coletar, processar e disponibilizar. Um serviço central gera embeddings e os fornece via API, de modo que as instituições não precisam executar a infraestrutura.
– Ponto forte: barreira de entrada muito baixa.
– Desafio: dependência de um operador central, necessidade de financiamento sustentável.
3. Plugins e complementos. Para plataformas como DSpace ou Dataverse, plugins desenvolvidos pela comunidade poderiam fornecer recursos de busca semântica diretamente.
– Ponto forte: atende aos usuários onde eles já estão.
– Desafio: risco de fragmentação sem padrões.
A chave é encarar a adoção como um processo gradual e flexível — começando pequeno, experimentando serviços hospedados e expandindo à medida que se ganha experiência.
Diretrizes para o sucesso
É importante ressaltar que a introdução de modelos de incorporação multilíngues em sistemas de descoberta exige uma governança cuidadosa. Três áreas se destacam:
– Equidade: evite privilegiar idiomas que já dominam o mercado. O monitoramento regular da classificação dos resultados de busca é essencial.
– Transparência: os modelos e os dados de treinamento devem ser documentados e, idealmente, de código aberto. Os usuários têm o direito de saber como os resultados são gerados.
– Sustentabilidade: a busca semântica não é algo que se configura e se esquece. Os modelos precisam ser continuamente atualizados e reindexados, e, portanto, precisaremos de financiamento estável para computação e conhecimento especializado.
Esses tipos de mecanismos de proteção garantirão que o sistema funcione não apenas tecnicamente, mas também de forma ética e inclusiva.
Imagine um agrônomo no Peru pesquisando em espanhol e descobrindo estudos em japonês e etíope. Ou um formulador de políticas em Gana recuperando pesquisas em português e inglês com a mesma facilidade. Isso não é apenas uma atualização técnica. É uma transformação rumo a um verdadeiro acervo acadêmico multilíngue onde o idioma da pesquisa não limita mais o acesso ao conhecimento. Para chegarmos lá, precisamos de infraestrutura compartilhada, governança transparente e uma escolha coletiva: tratar todos os idiomas como igualmente valiosos no fluxo global de ideias. Ao trilharmos esse caminho, a próxima geração de pesquisadores herdará algo mais rico: um registro global de conhecimento que reflete toda a diversidade da sabedoria humana.
Porque quando você faz uma pergunta em seu idioma, o mundo inteiro deveria ser capaz de respondê-la.
Próximos passos para o COAR
Um relatório completo, detalhando as tecnologias que sustentam nosso modelo de busca semântica multilíngue, está sendo preparado e será compartilhado com a comunidade nas próximas semanas. O relatório também incluirá uma proposta para a implementação gradual dessa abordagem no contexto da rede global de repositórios. Além disso, lançaremos uma consulta pública para coletar contribuições e feedback da comunidade em geral. Informações sobre como participar da consulta serão disponibilizadas quando publicarmos o relatório, no próximo mês, no site da COAR e por meio de diversas redes sociais (Mastadon/Bluesky).
Já há um Relatório da COAR intitulado Good Practice Advice for Managing Multilingual and non-English Language Content in Repositories publicado em 2023 [2].
Descrição da imagem principal
A imagem é um cartaz promocional sobre a Semana de Acesso Aberto (Open Access Week), destacando a diversidade de idiomas no mundo e a importância de que a pesquisa científica seja compartilhada em outras línguas além do inglês. A mensagem principal é incentivar o uso de repositórios para compartilhar pesquisas no idioma de sua escolha, promovendo a quebra de barreiras linguísticas na ciência.
Existem mais de 7.000 idiomas no mundo e apenas um deles é o inglês.
A mensagem incentiva o uso de repositórios para compartilhar pesquisas no idioma de sua escolha.
O objetivo é quebrar as barreiras linguísticas na ciência por meio de buscas semânticas multilíngues.
== Referência ==
[1] MATAS, Lautaro; SHEARER, Kathleen. Breaking language barriers in science through semantic multilingual search. COAR News, Sept. 8, 2025. Disponível em: https://coar-repositories.org/news-updates/breaking-language-barriers-in-science-through-semantic-multilingual-search/ Acesso em: 05 nov. 2025.
[2] COAR Task Force on Supporting Multilingualism and non-English Content in Repositories. Good Practice Advice for Managing Multilingual and non-English Language Content in Repositories. COAR, 2023. Disponível em: https://doi.org/10.5281/zenodo.10053918 Acesso em: 05 nov. 2025.
Notícias relacionadas:
COAR lança o Diretório Internacional de Repositórios. July 2025. Disponível em: https://www.acessoaberto.usp.br/coar-lanca-o-diretorio-internacional-de-repositorios/
Sobre a COAR
A COAR – Confederation of Open Access Repositories – é uma associação internacional com mais de 130 membros e parceiros de todo o mundo, representando bibliotecas, universidades, instituições de pesquisa, financiadores governamentais e outros. A COAR reúne repositórios individuais e redes de repositórios para desenvolver capacidades, alinhar políticas e práticas e atuar como uma voz global para a comunidade de repositórios. https://coar-repositories.org/about-coar/
____________________________________________

