En su sentido más básico, los metadatos son información sobre los datos, y describen características básicas de los mismos, como:

Quién creó los datos

Qué contiene el archivo de datos

Cuándo se generaron los datos

Dónde se generaron los datos

Por qué se generaron los datos

Cómo se generaron los datos

Los metadatos le facilitan a usted y a otros la identificación y reutilización correcta de los datos en una fecha posterior.

Metadatos perfeccionados

Los metadatos estructurados no sólo favorecen el descubrimiento y la conservación a largo plazo de sus datos de investigación, sino que permiten la agregación y la búsqueda simultánea de datos de investigación de decenas, cientos o miles de investigadores.

Por ello, los repositorios de dominios específicos suelen requerir metadatos altamente estructurados con sus envíos de datos: permite realizar búsquedas altamente granulares en su contenido agregado. Esto, a su vez, hace que sus datos sean más fáciles de encontrar.

Recogida de datos experimentales

Con toda probabilidad, ya está capturando los metadatos necesarios sobre su investigación. Sus cuadernos de laboratorio y archivos de investigación contienen gran parte de esta información, si no toda, como por ejemplo

Nombre del investigador

Fecha

Proyecto

Detalles del experimento/análisis que se está llevando a cabo, incluyendo el propósito y los métodos utilizados

Fuentes de otros datos utilizados en el experimento/análisis

La clave es recopilar toda la información necesaria (metadatos) a medida que se trabaja y luego vincular esos metadatos a los propios archivos de datos.

Si usted es la única persona que utiliza estos datos, es posible que los metadatos no necesiten estar muy estructurados para ser útiles. Sin embargo, los metadatos deben ser bastante completos. Esto le ayudará más tarde a referirse a estos archivos. También hará que la futura estructuración de sus metadatos en un estándar formalizado sea más fácil y menos complicada.

Seguimiento de los metadatos

Considere uno o varios de estos métodos para el seguimiento de los metadatos y los archivos de datos:

Mantenga un cuaderno de papel con información sobre sus proyectos, anotando las ubicaciones y los nombres de los archivos digitales asociados a los experimentos individuales.

Mantenga un cuaderno digital con información sobre sus proyectos con hipervínculos incrustados a los archivos de datos relevantes.

Incluya una nota en cada archivo de datos que indique la ubicación de los metadatos.

En cada carpeta de su ordenador que contenga datos de investigación, incluya un archivo de texto que describa el contenido de los archivos de esa carpeta, incluyendo explicaciones de las abreviaturas y los encabezados de las columnas de los archivos. También puede incluir referencias a las publicaciones que describen los datos.

Puede que no necesite que sus metadatos estén muy estructurados para entender el contenido de sus archivos en este momento. Sin embargo, incluir toda la estructura posible puede ayudarle a comprender mejor o más rápidamente los datos en el futuro. También ayudará a otras personas a entender sus datos sin que necesiten ayuda o explicaciones directamente de usted.

Normas de metadatos

Para enviar su investigación a un repositorio de datos, es posible que se le pida que formatee sus metadatos utilizando un estándar de metadatos. Consulte al repositorio que vaya a utilizar para determinar cuáles son sus requisitos de metadatos.

Las estructuras de metadatos suelen denominarse “esquema”. El esquema tendrá un conjunto definido de características para describir los datos. Los metadatos completados suelen presentarse en un lenguaje legible por máquina, como el XML.

Como ejemplo, el conjunto de elementos de metadatos Dublin Core contiene las siguientes 15 propiedades básicas. Puede ver los comentarios y explicaciones de todos los términos que aparecen a continuación en el sitio web de Dublin Core.

Colaborador: Entidad responsable de realizar contribuciones al recurso.

Cobertura: El tema espacial o temporal del recurso, la aplicabilidad espacial del recurso o la jurisdicción bajo la cual el recurso es relevante.

Creador: Una entidad principalmente responsable de la elaboración del recurso.

Fecha: Un punto o período de tiempo asociado con un evento en el ciclo de vida del recurso.

Descripción: Una descripción del recurso.

Formato: El formato de archivo, el soporte físico o las dimensiones del recurso.

Identificador: Una referencia inequívoca al recurso dentro de un contexto determinado.

Lengua: La lengua del recurso.

Editor: Una entidad responsable de poner a disposición el recurso.

Relación: Un recurso relacionado.

Derechos: Información sobre los derechos que se tienen sobre el recurso.

Fuente: Un recurso relacionado del que se deriva el recurso descrito.

Asunto: El tema del recurso.

Título: Nombre dado al recurso.

Tipo: La naturaleza o el género del recurso

Estándares de Metadatos

Los estándares o esquemas de metadatos consisten en elementos específicos utilizados para describir o documentar sus datos. Algunas disciplinas han establecido normas de metadatos. Además, algunos repositorios de datos tienen sus propias normas. También hay varios esquemas de propósito general que puedes adaptar a tus necesidades.

Si no utiliza un esquema de metadatos estándar cuyos detalles sean ampliamente conocidos y fácilmente accesibles para otros investigadores, asegúrese de conservar el propio esquema y su documentación, junto con los datos y metadatos. De este modo, contribuirá a garantizar que tanto usted como otras personas puedan comprender y reutilizar sus datos en el futuro.

Ejemplos de normas de metadatos

A continuación se enumeran varias normas de metadatos conocidas y utilizadas con frecuencia.

Dublin Core: una norma de metadatos de propósito general para describir recursos en red

Metadata Object Description Schema (MODS): un conjunto de elementos bibliográficos que puede utilizarse para diversos fines, y en particular para aplicaciones bibliotecarias. Metadata Encoding and Transmission Standard (METS) es una variación útil de MODS

Norma del Comité Federal de Datos Geográficos (FGDC): norma internacional ISO para la descripción de datos geoespaciales

Encoded Archival Description (EAD): norma para la codificación de ayudas a la búsqueda para su uso en un entorno de red

Norma de la Iniciativa de Documentación de Datos (DDI): norma internacional basada en XML para el contenido, la presentación, el transporte y la conservación de la documentación (es decir, los metadatos) de los conjuntos de datos de las ciencias sociales y del comportamiento.

Acerca de las ontologías

Las ontologías son vocabularios compartidos que se utilizan para describir los componentes de una determinada disciplina y las relaciones entre estos componentes. El uso de ontologías facilita la comprensión de sus datos por parte de otras personas (o incluso del futuro). Los vocabularios controlados, en cambio, no son más que listas de términos predefinidos y autorizados.

Además de utilizar una norma de metadatos, es posible que desee (o se le exija) utilizar ontologías o vocabularios controlados para crear sus metadatos. Por ejemplo, si utiliza el Dublin Core como esquema de metadatos, le recomiendan que utilice la Internet Media List, un vocabulario controlado, para introducir información en la etiqueta “Formato”. También se recomienda utilizar un vocabulario controlado para introducir los términos temáticos, pero es usted quien debe elegir qué vocabulario utilizar.

A continuación se presentan algunos ejemplos de ontologías y vocabularios controlados que se utilizan actualmente en diversas disciplinas:

Bioportal

El portal del Centro Nacional de Ontología Biomédica de Estados Unidos, alojado en Stanford.

Gene Ontology

Una iniciativa bioinformática que pretende estandarizar la representación de los atributos de los genes y productos génicos en todas las especies y bases de datos.

Medical Subject Headings (MeSH)

Vocabulario controlado utilizado para indexar artículos para PubMed.

Web Ontology Language (OWL)

Ontología utilizada para la web semántica.

Getty Thesaurus of Geographic Names (TGN)

Vocabulario controlado que incluye nombres y otra información sobre lugares, entidades políticas administrativas y características físicas.

RFC4646

Este vocabulario proporciona un mecanismo para describir el lenguaje de un objeto.

Chemical Entities of Biological Interest (ChEBI)

Ontología de pequeños compuestos químicos.

Microarray Gene Expression Society Ontology (MGED)

Ontología diseñada para describir experimentos de microarrays.

Internet Media List

Vocabulario controlado de tipos de archivos multimedia de Internet.

Environmental Ontology (EnvO)

Ontología utilizada para describir los entornos de cualquier organismo o muestra biológica.

Ontologías de nombres de reacciones, métodos químicos y procesos moleculares

Ontologías para la química de la Royal Society of Chemistry (RSC)

Archivo README

Un archivo README es un archivo de texto sin formato que incluye información descriptiva utilizada habitualmente para el software, los juegos y el código. Es un documento complementario que existe para que el creador pueda explicar el contenido al usuario. Cuando se trabaja con datos, puede ser útil crear e incluir un archivo README con los datos. Esto garantiza que los futuros usuarios entiendan los datos, los términos y demás.

No hay normas para escribir un archivo de texto README, pero se recomienda incluirlo:

Título

Investigador(es) principal(es)

Fechas/lugares de recogida de datos

Palabras clave

Idioma

Financiación

Descripciones de cada carpeta, archivo, formato, método de recogida de datos, instrumentos, etc.

Definiciones

Personas implicadas

Cita recomendada

Herramientas de metadatos

Existen varias herramientas gratuitas para la creación de metadatos. Algunas de ellas le ayudan a seleccionar vocabularios controlados para incluir en su documentación, mientras que otras combinan esa funcionalidad con un esquema de metadatos totalmente compatible. A continuación encontrará breves descripciones de varias herramientas útiles, junto con enlaces a instrucciones de descarga e instalación, documentación, tutoriales y guías de usuario. Consulte la tabla de comparación de funciones que proporciona información adicional para ayudarle a encontrar la herramienta adecuada para su proyecto, plataforma y necesidades particulares.

Annotare

Annotare es un software basado en formularios para anotar las investigaciones biomédicas y los datos resultantes. Es compatible con ontologías biomédicas, contiene plantillas estándar para tipos de experimentos comunes e incluye un asistente de diseño para crear sus propios formularios.

CEDAR Workbench

CEDAR Workbench es una herramienta de código abierto para gestionar los metadatos, utilizando principios semánticos rigurosos si se desea. Permite a los usuarios especificar plantillas mediante una interfaz de usuario (como los formularios de encuesta de Google Forms o Survey Monkey) y, a continuación, rellenar esos formularios de forma eficiente mediante menús desplegables, consejos de ayuda y sugerencias inteligentes. Las plantillas y los metadatos pueden compartirse con otros usuarios y grupos. Los metadatos también pueden descargarse en JSON-LD, JSON simple o RDF, o exportarse a repositorios conectados, que pueden integrarse utilizando el conjunto completo de API.

ISA Creator

ISA Creator es una aplicación independiente de código abierto que ayuda a planificar y describir experimentos y facilita la exportación e importación de datos directamente a y desde algunos repositorios públicos. Existen herramientas adicionales en el paquete de software ISA-Tools para analizar ISA-Tab en estructuras de datos R y para analizar PERL y Python para ISA-Tab. ISA-Tab es el formato requerido para publicar datos en la revista Scientific Data de Nature Publishing. Este software crea archivos descriptivos separados para sus archivos experimentales.

Morpho

Morpho le permite describir experimentos ecológicos y crear un catálogo de datos y descripciones que puede consultar. Incluye una interfaz con la Red de Conocimiento para la Biocomplejidad (KNB) para compartir, consultar, ver y recuperar datos.

OMERO

OMERO es un software de repositorio para importar, visualizar, organizar, describir, analizar y compartir imágenes de microscopía desde cualquier lugar con acceso a Internet. Incluye la posibilidad de crear grupos de usuarios con diferentes permisos para compartir datos.

OntoMaton

OntoMaton proporciona búsqueda de ontologías y etiquetado automatizado a través del Bioportal de la NCBO de ontologías biomédicas dentro de las hojas de cálculo de Google. Esta herramienta forma parte de la suite ISA-Tools. Las anotaciones se generan dentro de su archivo de datos tabulares.

RightField

RIghtField es una herramienta de código abierto que permite buscar y seleccionar términos ontológicos desde Microsoft Excel. Esta herramienta permite asignar una lista predeterminada de opciones a una celda concreta dentro de la hoja de cálculo. Todas las anotaciones están integradas en la hoja de cálculo. El usuario puede seleccionar entre las ontologías del BioPortal de la NCBO o importar una ontología desde una URL o su máquina local.

Almacenamiento

El almacenamiento de los datos suele realizarse en una ubicación secundaria de fácil acceso. Los datos se suelen reflejar, lo que significa que los datos de la ubicación secundaria son idénticos a la versión original.

Un ejemplo de almacenamiento de datos sería el sistema AFS. Cada vez que acceda a su espacio de almacenamiento AFS, verá exactamente los mismos archivos y carpetas que ve en su máquina de escritorio. Es casi tan fácil acceder a AFS como a sus archivos locales, pero los datos se almacenan en una ubicación físicamente separada.

Copia de seguridad

Las copias de seguridad de los datos suelen realizarse en una ubicación física separada a la que puede ser más difícil acceder que al espacio de almacenamiento habitual (aunque no necesariamente). Las copias de seguridad son instantáneas de la información de tus archivos en un momento determinado. Normalmente sólo se guarda una versión de la copia de seguridad, no varias.

El software Time Machine de un Mac es un buen ejemplo de sistema de copia de seguridad. Captura exactamente lo que contenían tus archivos en un momento dado. Las versiones más antiguas se purgan a medida que se crean las nuevas.

Algunos sistemas, como AFS, tienen tanto funciones de almacenamiento como de copia de seguridad. Consulte nuestra lista de soluciones de copia de seguridad para conocer más opciones.

Datos sensibles

Muchos investigadores trabajan con información sobre la salud de los pacientes u otros datos personales. Estos tipos de datos se clasifican en diferentes categorías, cada una de las cuales requiere su propio nivel de seguridad. Consulta nuestra página sobre datos sensibles, que incluye más información sobre las clasificaciones de datos y sobre el almacenamiento y las copias de seguridad de los datos sensibles.

Conservación

Ten en cuenta que hacer una copia de seguridad de tus datos no es lo mismo ni sustituye a la conservación a largo plazo.

Nuestros especialistas esperan por ti para que los contactes a través del formulario de cotización o del chat directo. También contamos con canales de comunicación confidenciales como WhatsApp y Messenger. Y si quieres estar al tanto de nuestros novedosos servicios y las diferentes ventajas de contratarnos, síguenos en FacebookInstagram o Twitter.

Si este artículo fue de tu agrado, no olvides compartirlo por tus redes sociales.

También te puede interesar: Gestión de Datos en la Investigación

Referencias Bibliográficas

Park, J., Tosaka, Y., Maszaros, S., & Lu, C. (2010). From metadata creation to metadata quality control: Continuing education needs among cataloging and metadata professionals. Journal of Education for Library and Information Science, 51(3), 158-176.

Park, J., & Tosaka, Y. (2010). Metadata creation practices in digital repositories and collections: Schemata, selection criteria, and interoperability. Information Technology and Libraries, 29(3), 104-116.

Riley, J, & Dalmau, M. (2007). Developing a flexible metadata model for the description and discovery of sheet music. Electronic Library, 25(2), 132-147

Metadatos en la Investigación

Metadatos en la Investigación. Foto: Unsplash. Créditos: Leon @myleon

Abrir chat
1
Escanea el código
Bienvenido(a) a Online Tesis
Nuestros expertos estarán encantados de ayudarte con tu investigación ¡Contáctanos!