Dados de pesquisa: abordagens e avaliações responsáveis ​​e significativas

Os dados de pesquisa estão no centro da ciência. Porém, não basta criar “Repositórios de Dados Científicos” nas universidades para “cumprir tabela” de tarefa cumprida, sem a devida dedicação à gestão dos próprios repositórios, sua adequada infraestrutura e interoperabilidade, bem como a curadoria e averiguação rigorosa da propriedade intelectual e direito autoral dos dados publicados, além da verificação de permissões de compartilhamento, licenças, adequação de metadados e análise especializada (auditoria de confiabilidade dos dados em relação ao plano de gestão que inclui a descrição da metodologia de seleção, coleta, análise e publicação de dados) pelas “partes interessadas” universidades de pesquisa.

Somente a partir do cumprimento de tais premissas é possível pensar em discutir benefícios de práticas de compartilhamento de dados abertos e possível reuso.

É dever dos pesquisadores, das universidades de pesquisa e das agências de financiamento zelar pela confiabilidade dos dados depositados em repositórios universitários e temáticos, antes de publicá-los e compartilhá-los publicamente. Tal tarefa é complexa e não pode ficar por conta apenas dos pesquisadores/orientados/autores e daqueles que disponibilizam uma infraestrutura. Equipes  interdisciplinares com expertises profissionais distintas devem estar envolvidas.

Métricas de Impacto de Dados

Para perceber os benefícios das práticas de compartilhamento de dados abertos e o impacto dos dados de pesquisa, precisamos de uma implementação prática de uso ferramentas e aceitação da comunidade que ajudará no desenvolvimento de métricas de uso, reuso e impacto de dados na Ciência. Esta é uma tradução livre da matéria publicada pela organização Make Data Count [1].

Em uma miríade de maneiras, os pesquisadores usam os dados para desenvolver suas pesquisas. No entanto, quando um pesquisador publica dados, nossa comunidade ainda carece de uma forma clara de medir seu alcance e impacto.

Embora tenha havido um aumento nos esforços para melhor avaliar isso, as abordagens não foram consolidadas ou acordadas. Essa falta de métricas de dados auditáveis ​​e compreensíveis é uma das causas da contínua falta de crédito para a produção de dados de pesquisa. Sem as métricas de dados, os pesquisadores são obrigados a publicar dados apenas para “cumprir tabela” e atender aos requisitos de conformidade, em vez de serem avaliados ou recompensados ​​por seu trabalho.

Embora seja importante encontrarmos maneiras de avaliar os investimentos feitos em dados de pesquisa da perspectiva tanto do cientista quanto das comunidades mais amplas de infraestrutura de dados de pesquisa, é essencial que essas métricas sejam desenvolvidas de forma aberta e responsável .

Métricas abertas e criadas com responsabilidade

Houve várias tentativas de “curto-circuitar” o espaço de métricas e construir indicadores a partir de outros indicadores já defeituosos ou obscuros. Essas abordagens geralmente dependem do enquadramento ao espaço de publicação do periódico (fatores de impacto de dados ou índices h de dados), e apresentam evidências de serem indicadores fracos. Se a criação de métricas de dados não for desenvolvida pela comunidade, mas sim criada por entidades concorrentes (ou seja, comerciais), prevemos a criação de métricas que não medem realmente a reutilização do conjunto de dados e, portanto, impactarão negativamente o incentivo para publicar dados abertos.

Conforme mencionado no post “Métricas abertas exigem infraestrutura aberta”(em inglês Open Metrics Require Open Infrastructure [2], é necessário que as métricas sejam desenvolvidas em infraestrutura aberta, incluindo registros auditáveis ​​dos dados brutos que alimentam as métricas. Explicado mais em “Métricas de dados abertos: acendendo o fogo” Open Data Metrics: Lighting the Fire [3], se as contagens brutas forem em caixa preta e não transparentes, corremos o risco de repetir os erros cometidos no mundo dos artigos. Independentemente do tipo de organização, se a comunidade garantir que o uso de dados e as citações sejam contados e agregados de maneira rastreável e aberta, podemos implorar a confiança necessária nas métricas de dados desenvolvidas.

Ênfase nos blocos de construção

Até o momento, os esforços de métricas de dados foram divididos principalmente entre o uso de dados e iniciativas de citação de dados. O uso de dados refere-se às visualizações, downloads e contagens de quantas vezes um conjunto de dados é acessado. A citação de dados é a referência de um conjunto de dados como uma citação formal (por exemplo, inclusão em uma lista de referência para um artigo de jornal), ou uma referência ao uso ou reutilização de um conjunto de dados (por exemplo, a menção de um conjunto de dados no seção de métodos de um artigo). Embora esses dois aspectos das métricas de dados sejam distintos, eles costumam ser combinados na avaliação do impacto e do alcance de um conjunto de dados. Acreditamos que, embora essas contagens não sejam de fato métricas, as abordagens normalizadas para contar e compartilhar o uso e a citação são um primeiro passo importante no desenvolvimento de indicadores de avaliação de dados de pesquisa.

Além de normalizar nossas abordagens de contagem, precisamos de metadados de maior qualidade que permitam a contextualização adequada dessas contagens (por exemplo, informações disciplinares, financiamento, atribuições de autoria). Isso é verdadeiro tanto para o uso de dados quanto para a citação, e os repositórios que publicam dados e periódicos que citam dados têm a responsabilidade de avançar para um estado em que enviam metadados de alta qualidade a fontes centralizadas para agregação e reutilização.

A pesquisa bibliométrica básica que investiga o compartilhamento de dados, reutilização de dados e práticas de citação de dados permanece relativamente incipiente e é necessária para este desenvolvimento. Usar contagens padronizadas e disponíveis abertamente para uso e citação é importante para que haja o entendimento sobre como diversas facetas afetam a reutilização e citação de dados (por exemplo, entre disciplinas, status de carreira, país, etc.) Fornecer evidências empíricas (por meio de estudos de métodos mistos) sobre o papel da citação de dados e da reutilização de dados no processo de pesquisa é essencial para o desenvolvimento de métricas de dados apropriadas e significativas.

O caminho a seguir

Temos a oportunidade de criar métricas de dados responsáveis, transparentes e abertos e é essencial trazer a comunidade a bordo com abordagens abertas e normalizadas. À medida que construímos suporte para medir o alcance dos dados de pesquisa e defendendo a inclusão de dados abertos na avaliação de pesquisa responsável, precisamos garantir que haja responsabilidade e envolvimento da comunidade.

== REFERÊNCIAS ==

[1] MAKE DATA COUNT. Data metrics. Disponível em: https://makedatacount.org/data-metrics-2/ Acesso em: 26 jun. 2021

[2] CHODACKI, John; FENNER, Martin ; LOWENBERG, Daniella. Open Metrics Require Open Infrastructure. Disponível em: https://makedatacount.org/2020/07/10/open-metrics-require-open-infrastructure/ Acesso em: 26 jun. 2021

[3] LOWENBERGER, Daniella ; CHODACKI, John ; FENNER, Martin ; KEMP, Jennifer ; JONES, Matthew B. Open Data Metrics: Lighting the Fire (Version 1). Zenodo, Nov. 2019. Disponível em: http://doi.org/10.5281/zenodo.3525349 Acesso em: 26 jun. 2021