TNT el mejor programa de parsimonia

TNT el mejor programa de parsimonia
TNT el mejor programa de parsimonia

Páginas

22 de julio de 2025

csv2xyd: Optimizando el Análisis de Endemismo en la "Era de Big Data"

 

csv2xyd

El análisis de áreas de endemismo es crucial en biogeografía y conservación. Sin embargo, el manejo de los crecientes volúmenes de datos de biodiversidad online presenta desafíos significativos, como errores tipográficos, duplicados e inconsistencias taxonómicas. Para abordar esto, se ha desarrollado csv2xyd, un nuevo software en Python diseñado para simplificar el preprocesamiento de estos datos.


csv2xyd es una herramienta con interfaz gráfica que facilita la conversión de archivos CSV (un formato común en repositorios de biodiversidad) al formato XYD, el cual es específico y requerido por programas de análisis de endemismo como NDM/vNDM.

Características csv2xyd ofrece una serie de funcionalidades:

  • Limpieza de datos: Detecta errores tipográficos en los nombres de las especies y permite corregirlos, además de eliminar ocurrencias duplicadas. También ayuda a identificar inconsistencias taxonómicas.
  • Filtrado avanzado: Ofrece opciones para filtrar los datos, por ejemplo, eliminando especies con pocas ocurrencias o seleccionando registros específicos.
  • Eficiencia con Big Data: Ha sido probado con éxito en conjuntos de datos masivos, procesando millones de registros en minutos. Por ejemplo, un dataset de 4.8 millones de ocurrencias es procesado en 136.53 segundos.
  • Visualización y análisis geoespacial exploratorio: Incluye la posibilidad de generar mapas interactivos de las ocurrencias y realizar análisis espaciales básicos como el cálculo de riqueza y diversidad en polígonos.
Desarrollado en Python, csv2xyd aprovecha bibliotecas potentes como Pandas para la manipulación de datos y Dask para el procesamiento eficiente de grandes volúmenes de información.

El software es de código abierto y está disponible gratuitamente en su repositorio de GitHub

Esto no solo facilita su adopción, sino que también invita a la comunidad de desarrolladores e investigadores a contribuir a su mejora. Para facilitar su uso, los desarrolladores han proporcionado tutoriales en video tanto en inglés como en español.

Hasta el momento, la herramienta GeX (Santos & Fuhlendorf, 2018) ha abordado la necesidad de convertir archivos de biodiversidad a formatos como XYD. Mientras GeX es una aplicación web sencilla diseñada para la conversión directa y básica de CSV a XYD para bases de datos de tamaño moderado, csv2xyd ofrece un enfoque mucho más integral y robusto. Nuestro software va más allá de la simple conversión, proporcionando capacidades avanzadas de limpieza de datos (detección de errores tipográficos, eliminación de duplicados e inconsistencias), eficiencia para manejar millones de registros (Big Data) y filtrado avanzado. Además, csv2xyd incluye funcionalidades de visualización y análisis geoespacial exploratorio, y al ser de código abierto, invita a la comunidad a colaborar en la integración con APIs de servicios de biodiversidad como Global Biodiversity Information Facility y Encyclopedia of Life para automatizar georreferenciación de localidades sin coordenadas y validación taxonómica. Además, se busca mejorar la capacidad de fusión de múltiples archivos CSV basándose en relaciones de campos, similar a las uniones de bases de datos. Esto asegura que csv2xyd pueda crecer y adaptarse a las necesidades emergentes de la comunidad científica.

Esta es la cita:

Liria J, Soto-Vivas A 2025 Csv2xyd: A Python Software for Processing Large Biodiversity Datasets for Endemism Analysis. Journal of Open Research Software, 13: 8. DOI: https://doi.org/10.5334/jors.538

https://openresearchsoftware.metajnl.com/articles/10.5334/jors.538


14 de julio de 2025

Nueva versión NDM/vNDM (2025)

Recientemente en el repositorio de NDM/vNDM tenemos la nueva versión (junio 2025) del programa, el cual tiene las siguientes funciones (tomado del archivo README.txt):

* Solved a bad (previously undiscovered) bug in the calculation of the sets of species giving scores to the areas during searches (i.e. in ndm.exe), which caused some of the comparisons between areas (which referred to sets of species in each area) to sometimes discard areas that should have been kept, or to keep areas that should have been discarded. This code (two lines!) is flagged with "damn"!  The problem was introduced in the version of 2016, if I remember correctly.

* Added the "combinefile xxxx" option (which facilitates combining coordinate datasets).

* Added option to save area coordinates for Qgis (in CSV format).     






3 de noviembre de 2024

Programa py_tm2tnt

Hola de nuevo, apasionados de la cladística!

Continuando con las herramientas que hemos desarrollado para facilitar sus análisis, hoy les presento py_tm2tnt.



Este programa, diseñado en Python, les permite procesar archivos con datos morfométricos tradicionales (medidas) y exportarlos directamente al formato de TNT para análisis filogenéticos mediante parsimonia . py_tm2tnt puede manejar archivos CSV que incluyen varios especímenes por taxón, para lo cual solo requiere la lectura de un archivo CSV adicional con los conteos por especieUna vez cargados los datos, el programa calcula intervalos (ya sea intervalos de confianza o la media +/- error estándar) y los exporta al formato compatible con TNT.

py_tm2tnt les ofrece la funcionalidad de realizar análisis estadísticos univariados para cada carácter, permitiendo elegir entre ANOVA o Kruskal-Wallis, y exportar los resultados a un archivo CSV.

Además he creado un video tutorial en youtube:

Les dejo el enlace de github el cual incluye el programa, los requerimientos de instalación (version de Python y librerias) y un manual en PDF.


Actualizado 4/7/2025:

Acá podran descargar desde Dropbox el programa ejecutable (no requiere instalar Python + librerías); el archivo *.exe es aprox. 138mb




Y acá pueden consultar el artículo publicado:

Liria J, Soto-Vivas A. 2025. py_tps2tnt y py_tm2tnt: dos programas en Python para procesamiento de datos morfométricos para análisis cladísticos con TNT. Revista peruana de biología 32(2): e30018 001 - 006 (Julio 2025). doi: https://dx.doi.org/10.15381/rpb.v32i2.30018

¡Espero que esta herramienta les sea de gran utilidad en sus investigaciones! Si tienen alguna pregunta o comentario, no duden en dejarlo.

10 de octubre de 2024

Nuevo manual de Biogeografía práctica

Una buena noticia para los interesados en Biogeografía:


La enseñanza de la biogeografía es relativamente compleja, pues involucra conceptos y métodos de diferentes disciplinas y para muchos estudiantes es demasiado “teórica”, sin una conexión clara con la realidad biológica. Para mejorar su enseñanza y como resultado de invitar a diversos investigadores del área, un total de 106 autores de 40 instituciones contribuyeron con 131 prácticas que permiten aclarar conceptos y, a través de la aplicación de metodologías específicas, logran una concepción integral de la biogeografía, reafirmando los conocimientos teóricos que se imparten en clase.

Biogeografía práctica, fue pensado como complementario a libros de texto teóricos sobre biogeografía, por lo que consta de 131 ejercicios prácticos, agrupados en ocho unidades:

  • Unidad 1: Introducción al estudio evolutivo de la diversidad y su distribución geográfica (prácticas 1-12).
  • Unidad 2: Datos biogeográficos y herramientas analíticas (prácticas 13-29).
  • Unidad 3: Conceptos biogeográficos (prácticas 30-63). 
  • Unidad 4: Procesos biogeográficos (prácticas 64-76).
  • Unidad 5: Geografía de la diversidad: biodiversidad y patrones ecológicos (prácticas 77-94). 
  • Unidad 6: Reconstrucción de la historia biogeográfica de taxones (prácticas 95-102).
  • Unidad 7: Biogeografía evolutiva de biotas (prácticas 103-115).
  • Unidad 8: Biogeografía de la conservación (prácticas 116-131).


En este libro tuvimos la oportunidad de contribuir con la práctica N°43 (Unidad 3 "Conceptos biogeográficos"):


En la actividad utilizamos las distribuciones hipotéticas de animales del Mundo de Hielo y Fuego de G.R.R. Martin. Seguidamente, identificamos áreas de endemismo en las regiones de Westeros, Essos y Sothoryos.

Los archivos para las prácticas pueden obtenerlos acá:

https://libros.fciencias.unam.mx/biogeografia-practica/practicas.php

Más información de como adquirir el libro:

Biogeografía Práctica (versión PDF)

Primera edición

Tania Escalante, Erick A. García-Trejo, Juan J. Morrone (coordinadores)

Año 2024, Peso en MB: 41.1 MB

ISBN: 978-607-30-9190-9

Para mayores informes envíe un correo electrónico a: ventas.editoriales@ciencias.unam.mx




9 de octubre de 2024

Programa py_tps2tnt

¡Hola a todos los entusiastas de la cladística!

Hoy quiero compartir con ustedes una emocionante herramienta que he desarrollado como parte de una nueva línea de investigación para optimizar las tareas en sus análisis filogenéticos: py_tps2tnt.



py_tps2tnt está diseñado para procesar archivos TPS con coordenadas x,y (con o sin escala), y exportarlos al formato de TNT para análisis filogenéticos vía parsimonia.

Funcionalidades principales de py_tps2tnt:

  • Permite transformar archivos TPS que contienen múltiples individuos por taxón.
  • Realiza alineamientos mediante Procrustes.
  • Calcula promedios de configuración.
  • Determina rangos para el tamaño centroide.
  • Permite seleccionar distancias interlandmarks.
  • Exporta diversos tipos de datos directamente al formato TNT.
  • Puede lidiar con archivos TPS que incluyen varios especímenes.
  • Calcula el tamaño centroide promedio (en formato de intervalo de confianza o media +/- ES).
  • También puede exportar coordenadas promedio o intervalos de distancias interlandmarks (matrices EDMA).
  • El usuario puede realizar el análisis generalizado de Procrustes (AGP) a partir de la configuración consenso, la configuración del primer ejemplar, o la configuración deseada.
  • Finalmente, el archivo TNT resultante puede incluir el tamaño centroide, configuraciones promedio o alineadas, y matrices de distancia interlandmarks.

Para que puedan ver cómo funciona py_tps2tnt en la práctica, he preparado un tutorial en YouTube (en español):


Les dejo el enlace de github el cual incluye el programa, los requerimientos de instalación (version de Python y librerias), manual en PDF, y datos de ejemplo.


Actualizado 4/7/2025:

Acá podran descargar desde Dropbox el programa ejecutable (no requiere instalar Python + librerías); el archivo *.exe es aprox. 138mb


Y acá pueden consultar el artículo publicado:


Liria J, Soto-Vivas A. 2025. py_tps2tnt y py_tm2tnt: dos programas en Python para procesamiento de datos morfométricos para análisis cladísticos con TNT. Revista peruana de biología 32(2): e30018 001 - 006 (Julio 2025). doi: https://dx.doi.org/10.15381/rpb.v32i2.30018


¡Espero que esta herramienta les sea de gran ayuda en sus investigaciones! Si tienen alguna pregunta o comentario, no duden en dejarlo en la sección de comentarios.

7 de noviembre de 2023

Una geofilogenia para 10 años de la RACB 1997-2007

La Reunión Argentina de Cladística y Biogeografía (RACB), es un evento que se organiza en este país con la finalidad de agrupar a distint@s investigador@s y estudiantes (pre- y posgrado) que realizan investigaciones en analisis filogenéticos y estudios sobre la distribución de la biota. 

Durante la conmemoración de los 10 año de RACB, 1997-2007 tuve la oportunidad de recibir la siguiente imagen preparada por los organizadores:


Como se puede apreciar, es un cladograma con un arreglo de ramas por periodos (años), donde se indican las distintas RACB y sus sedes, desde Tucumán en 1997, pasando por Buenos Aires 1999, Mendoza 2001, Córdoba 2003, Salta 2004, Trelew 2006, y San Isidro en 2007.

Se me ocurrió una forma de homenajear a todos los organizadores de esos 10 años, y también a los participantes.

Realicé una geofilogenia en Mesquite a partir de las localidades de cada RACB; por ejemplo, Instituto Miguel Lillo en 1997, Museo Paleontológico Egidio Feruglio en 2006, Instituto de Botánica Darwinion en 2007, entre otras.  

Acá les presento algunos mapas,

  y la vista en Google Earth con el archivo kml:

 Vista general de la geofilogenia.

 Detalle con imagen (logo) de cada RACB.