martes, 12 de mayo de 2009

Metadatos en ecología (I). Introducción y conceptos

Introducción
Concepto de Metadatos e importancia
Cuando hablamos de metadatos nos referimos a la información acerca de los datos. Consiste en una información de nivel superior que describe el contenido, calidad, estructura y accesibilidad de un conjunto específico de datos (Micherner et al, 1997). De una forma sencilla, si tenemos un conjunto de datos, los metadatos corresponden a la información que nos describe quién, qué, cuándo, dónde y por qué de ese conjunto de datos'.Es decir, nos informan sobre el contexto en el que se tomaron los datos, los protocolos utilizados, la estructura y el formato que presentan; proporcionando de esta forma lo necesario para una correcta interpretación de los datos.

En ecología, al igual que en otras disciplinas científicas, los datos presentan una tendencia natural de degradación con el tiempo respecto al contenido de información, es lo que se conoce como entropía de la información. Por otro lado, los datos ecológicos presentan unas características que hacen de los metadatos una necesidad para un manejo eficiente de la información. Entre estas características destacamos:
  • Heterogeneidad. Existe un amplio abanico de estudios muy diferentes dentro de la disciplina ecológica (biodiversidad, restauración vegetal, ciclos biogeoquímicos, etc.) lo cual se traduce en un conjunto de datos con formatos muy heterogéneos que reflejan los motivos de la colecta de datos (Fegraus et al, 2005).
  • Diferentes escalas. Dentro de los estudios ecológicos se atiende a diferentes escalas temporales, geográficas y taxonómicas.
  • Dispersión de los datos. Existe, al igual que en otras disciplinas, una dispersión de datos en diferentes centros de investigación.

Entropía de la información

Los científicos han reconocido la importancia de documentar sus datos, y en ecología la utilización de metadatos aporta una serie de beneficios que fundamentan el uso de estos:
  • Reducen la entropía de la información.
  • Aumentan la longevidad de los datos.
  • Facilitan la reutilización de los datos y el intercambio entre científicos.
  • Facilitan las síntesis basadas en amplios datos (diferentes escalas) y los meta-análisis.
  • Permiten la generación de repositorios de información.
  • Capacitan el uso de aplicaciones analíticas avanzadas (p.ej. integración de datos, flujos de trabajo) y la interoperabilidad entre diferentes sistemas.
  • En definitiva, el uso de metadatos aumenta la potencialidad de los datos.

Estándares de metadatos
Existen diferentes esquemas o estándares de metadatos que establecen una serie de criterios fijos para la descripción de los datos. Estos estándares o modelos de metadatos varían en función del propósito y de la disciplina científica: biodiversidad (TDWG, Biodiversity Information Standart), información geográfica (Content Standards for Digital Geospatial Metadata, U.S. Federal Geographic Data Committee; normas ISO 19115), entre otros.

EML: Estandar de Metadatos en Ecología
En ecología se ha desarrollado un estándar de metadatos (basado en los trabajos pioneros de Michener et al, 1997 y de la Ecological Society of America) conocido como EML (Ecological Metadata Language). Este estándar, mantenido por la red KBN (Knowledge Network for Biocomplexity), consiste en un lenguaje común implementado en XML que permite describir, archivar y transportar datos. Presenta una estructura modular, donde cada uno de los módulos esta diseñado para describir una parte lógica del total de los metadatos que deben ser incluidos en un conjunto de datos ecológicos. Entre sus características destacan su carácter flexible y extensible, además de que incluye diferentes elementos de otros estándares, tales como: Dublin Core; Perfil de Datos Biológicos (BDP) del FGDC; ISO 19115; Darwin Core; Geography Markup Language (GML), lo cual le permite cierta interoperabilidad con estos estándares.

Existen diversas herramientas para la creación de metadatos siguiendo el estándar EML, entre ellas: Morpho y MetadataEditor
(esta última desarrollada para los sitios LTER). En próximas entradas profundizaremos en estas herramientas.

Bibliografía

Alonso, B. & Valladares, F. (2006). Bases de datos y metadatos en ecología: compartir para investigar en cambio global. ''Ecosistemas'', 15 (2): 83–88.

Cook, R.B., Olson, R.J., Kanciruk, P. & Hook, L.A. (2001). Best Practices for Preparing Ecological Data Sets to Share and Archive. ''Bulletin of the Ecological Society of America'', 82 (2):138–141.
Fegraus, E.H., Andelman, S., Jones, M.B. & Schildhauer, M., (2005). Maximizing the Value of Ecological Data with Structured Metadata: An Introduction to Ecological Metadata Language (EML) and Principles for Metadata Creation. ''Bulletin of the Ecological Society of America'', 86 (3): 158–168
Jones, M.B., Berkley, C., Bojilova, J. & Schildhauer, M. (2001). Managing scientific metadata. ''Internet Computing IEEE'', 5 (5): 59–68.
Jones, M.B., Schildhauer, M.P., Reichman, O.J. & Bowers, S. (2006). The New Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere. ''Annual Review of Ecology, Evolution, and Systematics'', 37 (1): 519–544
Michener, W.K., Brunt, J.W., Helly, J.J., Kirchner, T.B. & Stafford, S.G. (1997). Nongeospatial metadata for the ecological sciences. ''Ecological Applications'', 7 (1):330-342

Michener, W.K. & Brunt, J.W. (Eds.) (2000). ''Ecological Data: Design, Management and Processing.'' Oxford: The seminal paper Blackwell. 180 pp.
Michener, W.K. (2006). Meta-information concepts for ecological data management. Ecological Informatics, 1 (1): 3–7.

Otros recursos ofrecidos por diferentes iniciativas:

Red Knowledge Network for Biocomplexity:

  • Presentaciones sobre EML, metadatos, y editores de metadatos.
  • Manual de buenas prácticas sobre EML
Red US Long Term Ecologiacal Research (LTER)
Science Environment for Ecological Knowledge (SEEK)

No hay comentarios:

Publicar un comentario