¿Como trabajar con datos brutos de Observado? (I)

22 de julio de 2019

¿Cómo descargar los datos?

Vamos a ver en una trilogía de artículos cómo trabajar con los datos de observaciones que podemos obtener en bruto de la web Observation.org (Observado en España), para procesarlos después con R utilizando una base de datos como intermediario.

Lo primero que necesitamos es descargar los datos de Observation.org, y esto es lo que vamos a ver en este primer artículo.

Si lo que queremos es trabajar con nuestras propias observaciones, podemos ir al menú “Mi observation.org > Exportar/backup” . Seleccionamos los filtros que queramos aplicar para la descarga, como el grupo de especies, nivel de rareza, o un rango de fechas.

Es importante que marquemos la opción “Archivo CSV”, que nos dará el máximo de información.

Formulario de descarga de observaciones propias

Una vez pulsemos el botón “Actualizar” se mostrará justo debajo del botón el enlace que deberemos seguir para descargar la información

Enlace para descargar los datos seleccionados

Si lo que queremos es obtener observaciones de todos los usuarios de Observation.org enviaremos un correo a info@observado.es con el detalle de la información que queremos descargar, y nos enviarán el paquete de datos directamente

Como resultado de ambas operaciones obtendremos un CSV muy similar, con todos los detalles de cada una de las observaciones.

Estos ficheros CSV descargados están en formato UTF-16, idioma español, y con los valores separados por tabuladores. Se pueden abrir de manera directa con LibreOffice o MS Excel.

En la tabla siguiente podemos consultar las columnas presentes en el CSV que se descarga al consultar las observaciones personales desde el portal Observation.org, y qué información se incluye en cada una de ellas:

NombreValores
Nivel“+” para observación principal
“-” para observación secundaria
IdIdentificador único de la observación (principal)
Nombre científicoNombre científico de la especie observada
NombreNombre común en el idioma seleccionado
EuringCódigo EURING de la especie -si tiene-
Species idIdentificador único de la especie
FamiliaFamilia taxonómica
Grupo de especiesGrupo de especies al que pertenece la observación
Status de la especieStatus de la especie en el área observada (nativa o exótica)
FechaFecha de la observación
HoraHora de la observación
Fecha de envíoFecha de envío de la observación
timestampFecha y hora de envío de la observación
Tipo de observaciónOrígen de la observación: ObsMapp. iObs o sitio web
RegistrosNúmero de individuos observados
min
max
sexoValor seleccionado
Método de conteoValor seleccionado
AspectoValor seleccionado
ActividadValor seleccionado
XCoordenada decimal X (longitud) en datum WGS84, con precisión de 5 decimales
YCoordenada decimal Y(latitud) en datum WGS84, con precisión de 5 decimales
lat/LatLatitud en decimal con datum WGS84, a máxima precisión
lng/LonLongitud en decimal con datum WGS84, a máxima precisión
BiotopoSiempre en “onbekend”
ÁreaNombre del polígono más pequeño donde se encuentra la observación
TérminoProvincia donde se encuentra la observación
PaísPaís donde se encuentra la observación
correctamente identificado“Y” si el observador está seguro de la observación
“N” si la marcó como “Con dudas”
Individuo escapado“N” si es una observación un individuo silvestre
“Y” si es una observación de un individuo escapado de una colección
linkURL a la observación
precisiePrecisión en metros de la ubicación
loc_methodeMétodo de ubicación
protocol
status“O” -> Observación sin evaluar
“A” -> Observación aprobada automáticamente
“J”-> Observación aprobada manualmente
“N” -> Observación marcada como incorrecta
“P” -> Observación aprobada sin pruebas
“U” -> Observación con dudas, que no se puede validar apropiadamente
“I” -> Observación bajo estudio
Fotos“1” si adjunta fotos. “0” en caso contrario.
Nº de muestraValor introducido
Planta nutriciaEspecie asociada a la observación
SubstratoValor introducido
MétodoValor introducido
ObservacionesComentarios
Ubicación
Etiquetas
Transectos/ListasIdentificador de lista/muestreo asociada

Las columnas cambian un poco en caso de que hayamos solicitado información general de otros usuarios. En este caso se agregan las siguientes columnas:

NombreValores
HIDDEN_UNTILFecha de embargo de la observación
25830-XCoordenada E en sistema EPSG:25830
25830-YCoordenada N en sistema EPSG:25830
UsuarioNombre de usuario del observador
AdministradoresNombre de usuario del administrador que realiza la validación

Podríamos empezar a trabajar con estos dicheros directamente en R, pero en esta serie de artículos vamos a explicar cómo manejar ficheros grandes, de varios cientos de megas, de manera óptima. En vez de introducir directamente los ficheros en R o filtrarlos con AWK, como hacen otras bibliotecas de manejo de datos, vamos a avanzar un paso más utilizando un motor de base de datos real. Esto lo veremos en el siguiente artículo de la serie: ¿Cómo trabajar con datos brutos de Observado? (II)

  • qrcode link