Medindo os impactos dos metadados: capacidade de descoberta de livros no Google Scholar

A comunidade de publicação acadêmica fala MUITO sobre metadados e a necessidade de descritores de alta qualidade, interoperáveis ​​e legíveis por máquina do conteúdo que disseminamos. No entanto, como anteriormente refletido no The Scholarly Kitchen , apesar dos padrões de informação bem estabelecidos (por exemplo, identificadores persistentes), o setor carece de uma estrutura compartilhada para medir o valor e o impacto dos metadados que são produzidos.

Esta é uma tradução livre da matéria publicada no Blog The Scholarly Kitchen intitulada Measuring Metadata Impacts: Books Discoverability in Google Scholar [1].

Em 2021, embarcamos em um estudo patrocinado pela Crossref projetado para medir como os metadados afetam as experiências do usuário final e contribuem para a descoberta bem-sucedida de literatura acadêmica e de pesquisa por meio da web convencional. Especificamente, procuramos saber se livros acadêmicos com DOIs (e metadados associados) eram mais facilmente encontrados no Google Scholar do que aqueles sem DOIs.

Os resultados iniciais indicaram que os DOIs têm uma influência indireta na capacidade de descoberta de livros acadêmicos no Google Scholar – no entanto, não encontramos nenhuma ligação direta entre os DOIs de livros e a qualidade da indexação do Google Scholar ou a capacidade dos usuários de acessar o texto completo por meio de links de resultados de pesquisa . Embora o Google Scholar afirme não usar metadados DOI em seu índice de pesquisa, os resultados de nosso estudo de métodos mistos de mais de 100 livros (de 20 editoras) demonstram que livros com DOIs são geralmente mais detectáveis ​​do que aqueles sem DOIs.

À medida que finalizamos nossa análise, estamos compartilhando alguns resultados iniciais [2] e solicitando contribuições de nossa comunidade. Que lições relevantes podemos extrair deste exercício? Que mudanças as editoras de livros podem considerar com base nos resultados deste estudo?

Antecedentes do estudo

Este estudo foi projetado para avaliar os impactos e benefícios dos metadados para os usuários. Dada a sua popularidade com uma série de partes interessadas em nosso setor, nos propusemos a medir os impactos dos metadados na capacidade de descoberta na web convencional – ou seja, o Google Acadêmico ou Google Scholar (em inglês).

Nosso método de teste e rubrica de análise foram desenvolvidos com base em nossa própria pesquisa de usuários de informações, em particular como os leitores pesquisam e recuperam e-books acadêmicos, bem como estudos publicados sobre experiências de informações acadêmicas e práticas de pesquisa. Classificamos o desempenho de pesquisa de mais de 100 livros acadêmicos usando consultas de teste predefinidas (duas para cada título). Os livros testados neste estudo vieram de editoras de todos os tipos e tamanhos e representam monografias e volumes editados de uma variedade de campos; alguns eram de acesso aberto e outros foram publicados sob modelos de licenciamento tradicionais.

Desenvolvemos e executamos pesquisas de teste de itens conhecidos que foram projetadas para simular práticas comuns de pesquisadores. A análise heurística dos resultados da pesquisa foi usada para avaliar o desempenho da pesquisa em uma rubrica de pontuação de 5 pontos, projetada para medir o grau de atrito na localização do livro em questão. Esse método nos permitiu avaliar atributos específicos de livro e metadados por suas pontuações de desempenho de pesquisa para avaliar o impacto dos metadados do livro na descoberta de conteúdo no Google Acadêmico.

Resultados e descobertas

Neste estudo, aprendemos que os campos de alto valor incluem o título principal emparelhado com subtítulos, sobrenomes do autor/editor e/ou área de estudo. As consultas usando títulos completos de livros tiveram o melhor desempenho em todos os aspectos. Aqueles que usaram datas de publicação e/ou sobrenomes de autores/editores e/ou nomes de editoras, mas sem o título do livro, tiveram o pior desempenho.

Surpreendentemente, nossas pontuações de descoberta não mostram variação significativa no desempenho por tipo de livro, editado ou escrito. Os títulos de acesso aberto tiveram um desempenho um pouco melhor do que os tradicionais. Os livros que cobrem as áreas de humanidades e ciências sociais tiveram um desempenho um pouco melhor do que os livros STM, mas apenas por uma pequena diferença (que não é estatisticamente significativa).

Testamos principalmente a capacidade de descoberta de títulos de livros, a partir de números iguais de livros com e sem DOIs em nível de capítulo. Fizemos testes semelhantes para descobrir o título do capítulo, mas descobrimos que a maioria das consultas de teste para capítulos leva os usuários ao próprio livro completo. Embora os livros sem DOIs no nível do título sejam menos detectáveis, não encontramos uma diferença mensurável entre os livros com ou sem DOIs no nível do capítulo. (Observação: todos os livros neste estudo com DOIs atribuídos em nível de capítulo também carregavam um DOI em nível de título, o que foi considerado bastante comum.)

Com base nesses resultados, estamos desenvolvendo uma teoria de que livros com DOIs têm melhor desempenho no Google Acadêmico porque se beneficiam dos metadados abertos e estruturados associados a esses DOIs – que são usados ​​por centenas de plataformas e serviços e, portanto, são “semeados” em todo o mundo. a web convencional, que o Scholar pode usar para indexação, vinculação, etc. Dito isso, no entanto, esses resultados também sugerem que os editores são mais bem atendidos por uma estratégia de metadados que esteja bem sintonizada com os protocolos esperados de cada canal para pesquisa e descoberta de livros . Em uma conversa recente sobre nossas descobertas, o próprio Anurag Acharya observou que esses resultados ressaltam a necessidade de os editores investirem na construção robusta e na ampla distribuição de metadados de livros.

Neste estudo, observamos que os protocolos de metadados em torno do Google Scholar não estão totalmente integrados aos órgãos de padrões de informações acadêmicas estabelecidos em nosso setor, como NISO, ou organizações de infraestrutura, como Crossref. Embora alguns padrões de dados convencionais prevaleçam no índice Scholar, como o uso de schema.org e HTTP, alguns atributos de metadados importantes parecem estar faltando. Por exemplo, um indicador do tipo de livro acadêmico (monografia, manual, etc.) melhoraria o índice de pesquisa do Google Acadêmico e poderia ser usado para filtrar os resultados da pesquisa, melhorando assim a experiência dos usuários na descoberta de livros acadêmicos. Um claro desafio para as editoras de livros hoje é o fato de que o Google Scholar opera fora de nossa infraestrutura de informação acadêmica governada pela comunidade.

O que vem depois

Embora este estudo tenha se concentrado no Google Scholar, os resultados e as lições aprendidas são aplicáveis ​​a outros canais convencionais de busca/descoberta de informações. Nosso relatório, previsto para a primavera de 2023, contribuirá para a literatura destinada a apoiar o design de sistemas de informação centrados no usuário e a arquitetura de conteúdo por editores acadêmicos e provedores de serviços.

À medida que escrevemos nossas descobertas, pretendemos desenvolver uma estrutura que possa ajudar os editores e outros a medir o impacto de seu trabalho para enriquecer e distribuir metadados acadêmicos. Esperamos que esta primeira revisão sistemática dos impactos dos metadados na descoberta de livros no Google Acadêmico forneça informações valiosas para esta comunidade. Enquanto isso, compartilhe seus pensamentos e perguntas nos comentários abaixo – ou entre em contato conosco diretamente.

Os autores gostariam de agradecer a Jennifer Kemp, da Crossref, pela inspiração para mergulhar na literatura de metadados e refletir sobre seu impacto nas experiências de informações de pesquisa. Agradecimentos especiais a Anurag Acharya do Google Scholar por sua consulta durante este estudo.

== REFERÊNCIA ==

[1] CONRAD, Lettie Y; URBERG, Michelle. Measuring Metadata Impacts: Books Discoverability in Google Scholar. The Scholary Kitchen Blog, Jan. 17th 2023. Disponível em: https://scholarlykitchen.sspnet.org/2023/01/17/measuring-metadata-impacts-books-discoverability-in-google-scholar Acesso em: 18 jan. 2023.

[2] CONRAD, Lettie Y; URBERG, Michelle. With or Without: Measuring Impacts of Books Metadata. Crossref Blog, Oct. 22th 2023. Disponível em: https://community.crossref.org/t/with-or-without-measuring-impacts-of-books-metadata/3058 Acesso em: 18 jan. 2023.