Curadoria de Dados de Pesquisa

Metadados e documentação de dados

Metadados são “dados sobre dados” ou “dados em contexto”. Metadados são informações que fornecem contexto para os dados. As informações aqui apresentadas possuem como fonte a Biblioteca da University of California – MERCED [1].

 

Ter metadados ajuda quando os pesquisadores reanalisam seus próprios dados, usam dados de outras pessoas, usam dados existentes para um projeto diferente ou colaboram com outros. Os metadados estão se tornando cada vez mais importantes à medida que a cultura de compartilhamento de dados se espalha, embora seja importante lembrar que os metadados também facilitam o uso de seus próprios dados. Ao documentar seus dados de pesquisa, pergunte-se se eles passam no “teste de Ward” – ou seja, se você desaparecesse, outra pessoa seria capaz de acessar, interpretar e analisar seus dados? Se a resposta for “Não”, você deve melhorar sua documentação e metadados.

A criação de metadados para seus projetos de pesquisa e dados leva a uma maior acessibilidade, ajuda os dados a reter seu contexto, acomoda o controle de versão (por meio da distinção de várias versões) e pode atender aos requisitos legais de repositórios e financiadores. Metadados de qualidade também tornam os dados mais fáceis de preservar e mais persistentes ao longo do tempo.

Quando você cria metadados para um dado – sejam esses dados um código, um texto, imagens, planilhas etc. – pode ajudar a responder às seguintes perguntas:

  • Quem criou os dados?
  • O que contém o arquivo de dados?
  • Quando os dados foram gerados?
  • Onde os dados foram gerados?
  • Por que os dados foram gerados?
  • Como os dados foram gerados?

Padrões de Metadados

Os padrões de metadados existem para criar consistência em toda a documentação de pesquisa. Há diversos padrões de metadados “agnósticos de disciplina” que os pesquisadores podem escolher. Eles incluem DataCite , Project Open Data e Data Documentation Initiative (DDI) . Padrões como esses geralmente podem ser aplicados a dados em quase todas as disciplinas.

Disciplinas específicas geralmente têm seus próprios conjuntos populares de padrões de metadados. O Digital Curation Center (DCC) mantém um diretório de padrões que podem ser navegados por disciplina. A Research Data Alliance (RDA) oferece um diretório mantido pela comunidade que é atualizado com mais frequência.

Finalmente, a escolha do repositório às vezes determina o esquema de metadados. Por exemplo, Dryad usa o esquema DataCite independente de disciplina por padrão. Repositórios de disciplinas específicas podem usar outros.

Este infográfico fornece uma visão geral visual rápida de diferentes padrões de metadados por disciplina. Saiba mais sobre cada um dos padrões mostrados no infográfico aqui .

Consulte também o Glossário de Curadoria de Dados de Pesquisa.

Documentação

Se os seus dados se destinam ao uso local – o que significa que serão usados ​​apenas por você e seus coautores, colegas de laboratório ou colaboradores – não importa qual (is) padrão (ões) você usa, desde que sejam consistentes. A seguir estão alguns exemplos de documentação de dados locais que você pode implementar imediatamente com seus próprios projetos – que, na verdade, você já pode estar usando sem perceber! Você pode (e deve) também incluir esta documentação ao publicar seus dados em um repositório ou arquivo.

Cadernos de laboratório ou de campo

São, como o nome indica, cadernos físicos (analógicos) ou digitais nos quais os pesquisadores documentam informações relevantes para o seu processo de pesquisa. Manter um caderno significa que cada pesquisador é capaz de localizar todas as suas informações relevantes em um só lugar; incentiva o trabalho cuidadoso; e permite que outros pesquisadores escolham e continuem uma linha de pesquisa, se necessário.

As melhores práticas para manter um caderno de laboratório eficaz incluem datar cada entrada em um formato consistente, listar nomes e informações de contato de colaboradores, fazer anotações de reuniões ou discussões importantes e justificar métodos e fontes de dados. Os pesquisadores também devem anotar quaisquer correções, cálculos caCodebook (com unidades), nomes / localizações de arquivos e as localizações de quaisquer materiais físicos.

Livro de código

Um livro de código é um conjunto de códigos, definições e exemplos frequentemente usados ​​como um guia para fornecer contexto e ajudar a analisar dados de pesquisa. Os livros de código são:

  • Essencial para analisar pesquisas qualitativas
  • Contém o texto das perguntas da pesquisa
  • Frequentemente, também contém listas de possíveis respostas para perguntas da pesquisa
  • O nível de detalhe depende do usuário, mas geralmente, quanto mais especificidade, melhor

Se sua pesquisa envolve a administração de pesquisas, você pode usar um livro de códigos para facilitar a interpretação e aumentar a acessibilidade dos resultados da pesquisa. Se você baixar um arquivo de dados arquivado, esse arquivo geralmente vem com alguma versão de um livro de código que explica cada variável e seus possíveis valores.

Dicionário de dados

Um Dicionário de Dados é uma coleção de nomes, definições e atributos sobre elementos de dados que estão sendo usados ​​ou capturados em um banco de dados, sistema de informação ou parte de um projeto de pesquisa. Ele descreve os significados e propósitos dos elementos de dados dentro do contexto de um projeto e fornece orientação sobre a interpretação, significados aceitos e representação. Um Dicionário de Dados também fornece metadados sobre elementos de dados. Os metadados incluídos em um Dicionário de Dados podem auxiliar na definição do escopo e das características dos elementos de dados, bem como as regras de uso e aplicação.

Os dicionários de dados são úteis por vários motivos. Resumindo, eles:

  • Ajudar a evitar inconsistências de dados em um projeto
  • Ajude a definir as convenções que devem ser usadas em um projeto
  • Fornece consistência na coleta e uso de dados entre vários membros de uma equipe de pesquisa
  • Torne os dados mais fáceis de analisar
  • Aplicar o uso de padrões de dados

Este é um pequeno vídeo (6:30) explicando o conceito e construção de dicionários de dados, produzido pela University of Wisconsin Data Services.

Arquivo README

Como o título indica – um arquivo que os usuários de seus dados devem ler primeiro, o que explica todas as informações que os usuários precisam saber para entender seus dados.
Certifique-se de que qualquer convenção de nomenclatura de arquivo que você usa associa cada arquivo README ao arquivo ou arquivos que faz referência.

  • Use um arquivo de texto simples ou outro formato não proprietário para criá-lo e formatá-lo claramente
  • Se você usar vários READMEs, mantenha o formato consistente entre eles
  • Use os formatos padrão de data, hora e nome nos READMEs

Uma breve visão geral do conteúdo do arquivo README recomendado:

  • Nomes e informações de contato de todo o pessoal envolvido
  • Data
  • Breve descrição dos dados contidos em cada arquivo
  • Lista de todos os arquivos (incluindo relações entre eles)
  • Para dados tabulares, nomes completos e definições de cabeçalhos de coluna
  • Unidades de medida
  • Quaisquer abreviações, códigos ou símbolos especializados usados
  • Informações sobre direitos autorais / licenciamento
  • Fontes de financiamento

Um exemplo de modelo README que você pode baixar e personalizar para atender às suas necessidades está disponível na Cornell University.

Alguns repositórios de dados podem exigir ou recomendar que você carregue os arquivos README junto com seus dados. O Dryad , por exemplo, atualmente não preserva a estrutura hierárquica dos arquivos e recomenda fortemente que o usuário apresente um resumo do projeto e uma descrição dos dados junto com seus dados.

Esses três tipos de documentação de dados locais – livros de código, dicionários de dados e arquivos README – são cruciais. Eles fornecem contexto não apenas para você, o pesquisador, no futuro, mas também para qualquer pessoa que possa precisar ou desejar usar seus dados por qualquer motivo. Usar dados de outras pessoas pode ser uma brisa ou uma grande dor de cabeça, dependendo da qualidade da documentação.

Organização de arquivos e pastas

Seguir as melhores práticas para gerenciar seus dados de pesquisa pode garantir que eles estarão disponíveis para outros pesquisadores em longo prazo. Nem todas essas diretrizes sugeridas sempre se aplicarão a todas as disciplinas ou projetos. No geral, no entanto, essas diretrizes irão agilizar suas atividades de gerenciamento de dados e ajudar a prevenir a perda de dados.

Estruturas de arquivo

Escolha uma estrutura organizacional consistente para todas as pastas do seu projeto. Embora possa parecer óbvio, pensar na estrutura de suas pastas e no planejamento de maneira eficaz torna a navegação muito mais fácil. Minimize o número de cliques necessários para acessar os arquivos. Em conjunto com uma convenção de nomenclatura de arquivo consistente, uma estrutura eficiente economiza muito tempo.

Lembrar:

  • Ser consistente
  • Estruture sua hierarquia logicamente e siga a lógica que fizer mais sentido para o seu projeto
  • Mantenha as pastas e subpastas separadas para reduzir a sobreposição, mas não crie um número excessivo de subpastas
  • Mantenha as categorias de subpasta restritas para restringir o número de arquivos em cada
  • Sua área de trabalho deve ser um armazenamento temporário e nunca manter os arquivos lá por mais tempo do que o absolutamente necessário
  • Ao nomear pastas, inclua informações que você pode desejar ao pesquisar arquivos

Nomenclatura de arquivos

Estabelecer uma convenção de nomenclatura de arquivo consistente no início de seu projeto e mantê-la é uma prática subestimada, mas incrivelmente útil. Sem uma convenção, é fácil acabar com muitos arquivos cujos nomes não dizem nada sobre seu conteúdo – esta situação pode exigir muito tempo e esforço para localizar um único arquivo e pode tornar quase impossível encontrar coisas .

Lembrar:

  • Ser consistente
  • Determine uma convenção de nomenclatura de arquivo antes de coletar dados
  • Limitar os nomes dos arquivos a 32 caracteres ou menos (geralmente menos)
  • Se você usar abreviações, defina-as em um arquivo README (e mantenha o arquivo README vinculado aos arquivos que ele descreve)
  • Com numeração sequencial (por exemplo, 1, 2, 3, etc.), use zeros à esquerda para acomodar versões de vários dígitos (por exemplo, use 01-10 para 1-10, 001-100 para 1-100 e assim por diante)
  • Evite caracteres especiais como &, *% #; ()! @ $ ^ ~ ‘{} []? <>
  • Use sublinhados _ em vez de espaços nos nomes dos arquivos
  • Use nomes descritivos que documentem os aspectos importantes do seu projeto
  • Use uma convenção de data e hora consistente, como AAAAMMDD para o ano, o que resultará na classificação cronológica dos seus arquivos.

Renomeação de arquivo

Em um mundo perfeito, você seria capaz de manter uma convenção de nomenclatura de arquivo desde o início de um projeto e nunca precisaria fazer uma alteração. No entanto, você pode descobrir que precisa adicionar ou remover informações dos nomes dos arquivos ou fazer outras alterações. Você tem duas opções:

  • Renomeie cada arquivo manualmente ou
  • Use um programa capaz de renomear arquivos em lotes

Existem vários programas de renomeação em lote disponíveis. Eles incluem, mas não estão limitados a:

Formatos de arquivo

Os melhores formatos de arquivo para dados de pesquisa são não proprietários, “sem perdas” e não criptografados / não compilados.

Os pesquisadores às vezes podem se deparar com situações em que absolutamente devem usar um formato de arquivo problemático. Nesse caso, eles devem envidar todos os esforços possíveis para fornecer uma versão de backup do arquivo em um formato diferente. Eles também devem fornecer documentação explicando como usar o formato problemático.

Não proprietário

Se o programa que criou o arquivo for a única opção para ler ou acessar o arquivo, o formato do arquivo é proprietário ou não está aberto. Para ajudar a garantir que seus dados e arquivos fiquem acessíveis por um longo período de tempo a uma ampla gama de usuários, escolha formatos abertos e não proprietários sempre que possível. Com formatos proprietários, se o software original ficar indisponível ou parar de funcionar, os arquivos serão perdidos.

Formatos de arquivo não proprietários ou abertos são aqueles em que a descrição da estrutura e / ou o desenvolvimento do formato são abertos ao público; eles geralmente podem ser abertos por vários programas de software. Os formatos abertos costumam ser mantidos pela comunidade.

“Sem perdas”

Alguns formatos de arquivo compactam as informações em arquivos. Isso pode ser útil porque os arquivos ocupam menos espaço em disco. No entanto, para muitos desses formatos, a compactação faz com que os dados do arquivo sejam perdidos. Esses formatos são “com perdas”. Os formatos que podem compactar arquivos sem perder nenhuma informação são “sem perdas” e retêm os detalhes originais dos dados.

Um arquivo “sem perdas” que foi compactado pode ser completamente restaurado ao seu estado original, inalterado. Um arquivo “com perdas” terá sua qualidade comprometida devido à exclusão de algumas informações.

Não criptografado / não compilado

Criptografar ou bloquear um arquivo com senha pode melhorar a segurança, mas se a chave de criptografia ou a senha for perdida, os dados do arquivo também podem ser perdidos.

O código-fonte não compilado é mais fácil de reutilizar e é mais provável que dure muito tempo, pois pode ser compilado em uma variedade de arquiteturas / plataformas.

Aqui está uma lista de alguns formatos de arquivo não proprietários que geralmente são preferidos para diferentes tipos de arquivos:

  • Recipientes: TAR, GZIP, ZIP
  • Bancos de dados: XML, CSV
  • Geoespacial: SHP, DBF, GeoTIFF, NetCDF
  • Imagens em movimento: MOV, MPEG, AVI, MXF
  • Sons: WAVE, AIFF, MP3, MXF
  • Estatísticas: ASCII, DTA, POR, SAS, SAV, R
  • Imagens estáticas: TIFF, JPEG 2000, PDF, PNG, GIF, BMP
  • Dados tabulares: CSV
  • Texto: XML, PDF / A, HTML, ASCII, UTF-8
  • Arquivo da web: WARC

Sustentabilidade dos formatos digitais e as especificações de formato recomendado da Biblioteca do Congresso fornecem informações mais abrangentes sobre os formatos, incluindo orientações para a preservação de conjuntos de dados, dados geoespaciais e arquivos da web.

 

Armazenamento e preservação

Práticas de Armazenamento

O gerenciamento ativo de dados é um componente-chave do gerenciamento de dados de pesquisa e deve ser abordado em seu plano de gerenciamento de dados. Dados ativos são os dados com os quais você está trabalhando atualmente para seu (s) projeto (s) de pesquisa, esteja você coletando, analisando ou qualquer outra coisa. Existem algumas práticas recomendadas importantes para armazenamento de dados de pesquisa.

  • Mantenha vários backups de todos os seus dados e documentação do projeto
  • Os computadores locais devem servir apenas como armazenamento temporário para seus arquivos
  • Armazenamento em nuvem, como Box, pode ser uma ferramenta útil para armazenamento de longo prazo

== Referência ==

UCMERCED LIBRARY. Research data curation. Disponível em: http://library.ucmerced.edu/metadata-and-documentation Acesso em: 13 jul. 2021.