Los investigadores han desarrollado el conjunto de datos de imágenes biológicas más grande jamás creado, apto para ser utilizado por el aprendizaje automático, y una nueva herramienta de inteligencia artificial basada en la visión para aprender de él.
por Tatyana Woodall, Universidad Estatal de Ohio
Los hallazgos del nuevo estudio amplían significativamente el alcance de lo que los científicos pueden hacer utilizando la inteligencia artificial para analizar imágenes de plantas, animales y hongos para responder nuevas preguntas, dijo Samuel Stevens, autor principal del estudio y Ph.D. Estudiante de informática e ingeniería en Ohio State.
«Nuestro modelo será útil para tareas que abarquen todo el árbol de la vida», dijo Stevens. «Los investigadores podrán realizar estudios que antes no hubieran sido posibles».
Los hallazgos se publican en el servidor de preimpresión arXiv .
Stevens y sus colegas curaron y publicaron por primera vez el conjunto de datos de imágenes listo para aprendizaje automático más grande y diverso del mundo , TreeOfLife-10M, que contiene más de 10 millones de imágenes de plantas, animales y hongos que cubren más de 454.000 taxones en el árbol de la vida. En comparación, la base de datos más grande anterior lista para el aprendizaje automático contiene solo 2,7 millones de imágenes que cubren 10.000 taxones. La diversidad de estos datos es una de las características clave de su algoritmo.
Luego desarrollaron BioCLIP, un nuevo modelo de aprendizaje automático lanzado a los investigadores en diciembre y diseñado para aprender del conjunto de datos mediante el uso de señales visuales en las imágenes con varios tipos de texto asociado con las imágenes, como etiquetas taxonómicas y otra información.
Los investigadores probaron BioCLIP viendo qué tan bien podía clasificar imágenes en cuanto a su lugar en el árbol de la vida, incluido un conjunto de datos de especies raras que no vio durante el entrenamiento. Los resultados mostraron que se desempeñó entre un 17% y un 20% mejor que los modelos existentes en la tarea.
El modelo BioCLIP está disponible públicamente aquí . Su demostración, dijo Stevens, también puede discernir con precisión la especie de una imagen de organismo arbitrario, ya sea de la sabana del Serengeti, de su zoológico local o de su patio trasero.
Los enfoques computacionales tradicionales utilizados para organizar abundantes bases de datos de imágenes biológicas generalmente están diseñados para tareas específicas y no son tan capaces de abordar nuevas preguntas, contextos y conjuntos de datos, dijo Stevens.
Además, debido a que el modelo se puede aplicar ampliamente a todo el árbol de la vida, su IA apoya más a los biólogos cuya investigación del mundo real tiene un enfoque más amplio, en lugar de aquellos que estudian nichos específicos, añadió.
Lo que hace que el enfoque de este equipo sea tan efectivo, dijo Yu Su, coautor del estudio y profesor asistente de ciencias de la computación e ingeniería en la Universidad Estatal de Ohio, es la capacidad de su modelo para aprender representaciones afinadas de imágenes, o ser capaz de decir la diferencia entre organismos de apariencia similar dentro de la misma especie y una especie que imita su apariencia.
Mientras que los modelos generales de visión por computadora son útiles para comparar organismos comunes como perros y lobos, estudios previos han revelado que no pueden tomar nota de las diferencias sutiles entre dos especies del mismo género de plantas.
Debido a su mejor comprensión de los matices, dijo Su, el modelo de este artículo también está excepcionalmente calificado para tomar determinaciones sobre especies raras y no vistas.
«BioCLIP cubre muchos órdenes de magnitud más especies y taxones que los modelos de visión general previamente disponibles públicamente», dijo. «Incluso cuando no se ha visto una determinada especie antes, se puede llegar a una conclusión razonable sobre si este organismo se parece a este, entonces es probable que sea así».
A medida que la IA continúa avanzando, concluye el estudio, modelos de aprendizaje automático como este pronto podrían convertirse en herramientas importantes para desentrañar misterios biológicos que, de otro modo, llevarían mucho más tiempo comprender. Y si bien esta primera versión de BioCLIP se basó en gran medida en imágenes e información de plataformas de ciencia ciudadana, Stevens dijo que los modelos futuros podrían actualizarse incluyendo más imágenes y datos de laboratorios científicos y museos. Debido a que los laboratorios pueden recopilar descripciones textuales más ricas de especies que detallan sus características morfológicas y otras diferencias sutiles entre especies estrechamente relacionadas, dichos recursos proporcionarán una gran cantidad de información importante para el modelo de IA.
Además, muchos laboratorios científicos tienen información sobre los fósiles de especies extintas, lo que el equipo espera que también amplíe la utilidad del modelo.
«Las taxonomías siempre están cambiando a medida que actualizamos nombres y nuevas especies , por lo que una cosa que nos gustaría hacer en el futuro es aprovechar mucho más el trabajo existente sobre cómo integrarlas», dijo. «En la IA, cuando se arrojan más datos a un problema, se obtienen mejores resultados, así que creo que hay una versión más grande que podemos seguir entrenando en un modelo más grande y más fuerte».
Otros coautores de Ohio State incluyen a Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo, Chan Hee Song, David Edward Carlyn, Tanya Berger-Wolf y Wei-Lun Chao. También contribuyeron Li Dong de Microsoft Research, Wasila M Dahdul de la Universidad de California, Irvine y Charles Stewart del Instituto Politécnico Rensselaer.
Más información: Samuel Stevens et al, BioCLIP: A Vision Foundation Model for the Tree of Life, arXiv (2023). DOI: 10.48550/arxiv.2311.18803