csv2xyd es una
herramienta con interfaz gráfica que facilita la conversión de archivos
CSV (un formato común en repositorios de biodiversidad) al formato XYD, el cual
es específico y requerido por programas de análisis de endemismo como NDM/vNDM.
Características csv2xyd ofrece una serie de funcionalidades:
- Limpieza de datos: Detecta errores tipográficos en los nombres de las especies y permite corregirlos, además de eliminar ocurrencias duplicadas. También ayuda a identificar inconsistencias taxonómicas.
- Filtrado avanzado: Ofrece opciones para filtrar los datos, por ejemplo, eliminando especies con pocas ocurrencias o seleccionando registros específicos.
- Eficiencia con Big Data: Ha sido probado con éxito en conjuntos de datos masivos, procesando millones de registros en minutos. Por ejemplo, un dataset de 4.8 millones de ocurrencias es procesado en 136.53 segundos.
- Visualización y análisis geoespacial exploratorio: Incluye la posibilidad de generar mapas interactivos de las ocurrencias y realizar análisis espaciales básicos como el cálculo de riqueza y diversidad en polígonos.
El software es de código abierto y está disponible gratuitamente en su repositorio de GitHub.
Esto no solo facilita su adopción, sino que también invita a la comunidad de
desarrolladores e investigadores a contribuir a su mejora. Para facilitar su
uso, los desarrolladores han proporcionado tutoriales en video tanto en inglés
como en español.
Hasta el momento, la herramienta GeX (Santos & Fuhlendorf, 2018) ha abordado la necesidad de convertir archivos de biodiversidad a formatos como XYD. Mientras GeX es una aplicación web sencilla diseñada para la conversión directa y básica de CSV a XYD para bases de datos de tamaño moderado, csv2xyd ofrece un enfoque mucho más integral y robusto. Nuestro software va más allá de la simple conversión, proporcionando capacidades avanzadas de limpieza de datos (detección de errores tipográficos, eliminación de duplicados e inconsistencias), eficiencia para manejar millones de registros (Big Data) y filtrado avanzado. Además, csv2xyd incluye funcionalidades de visualización y análisis geoespacial exploratorio, y al ser de código abierto, invita a la comunidad a colaborar en la integración con APIs de servicios de biodiversidad como Global Biodiversity Information Facility y Encyclopedia of Life para automatizar georreferenciación de localidades sin coordenadas y validación taxonómica. Además, se busca mejorar la capacidad de fusión de múltiples archivos CSV basándose en relaciones de campos, similar a las uniones de bases de datos. Esto asegura que csv2xyd pueda crecer y adaptarse a las necesidades emergentes de la comunidad científica.
Esta es la cita:
Liria J, Soto-Vivas A 2025 Csv2xyd: A Python Software for Processing Large Biodiversity Datasets for Endemism Analysis. Journal of Open Research Software, 13: 8. DOI: https://doi.org/10.5334/jors.538
https://openresearchsoftware.metajnl.com/articles/10.5334/jors.538
No hay comentarios:
Publicar un comentario