La identificación automatizada de especies es un método para poner la experiencia de los taxónomos a disposición de los ecologistas, parataxonomistas y otros a través de la tecnología digital y la inteligencia artificial . Hoy en día, la mayoría de los sistemas de identificación automatizados se basan en imágenes que representan la especie para la identificación. [1] Basado en imágenes identificadas con precisión de una especie, se entrena a un clasificador . Una vez expuesto a una cantidad suficiente de datos de entrenamiento, este clasificador puede identificar las especies entrenadas en imágenes nunca antes vistas. La identificación precisa de especies es la base de todos los aspectos de la investigación taxonómica y es un componente esencial de los flujos de trabajo de la investigación biológica.
Introducción
La identificación automatizada de objetos biológicos como insectos (individuos) y / o grupos (por ejemplo, especies , gremios, personajes) ha sido un sueño entre los sistemáticos durante siglos. El objetivo de algunos de los primeros métodos biométricos multivariados fue abordar el problema perenne de la discriminación grupal y la caracterización intergrupal. A pesar de mucho trabajo preliminar en las décadas de 1950 y 1960, el progreso en el diseño e implementación de sistemas prácticos para la identificación biológica de objetos completamente automatizada ha resultado frustrantemente lento. Recientemente, en 2004, Dan Janzen [2] actualizó el sueño para una nueva audiencia:
La nave espacial aterriza. Él sale. Lo señala alrededor. Dice "amistoso, hostil, comestible, venenoso, seguro, peligroso, vivo, inanimado". En el siguiente barrido dice " Quercus oleoides, Homo sapiens, Spondias mombin, Solanum nigrum, Crotalus durissus, Morpho peleides, serpentina". Esto ha estado en mi cabeza desde que leí ciencia ficción en noveno grado hace medio siglo. [ aclaración necesaria ]
El problema de la identificación de especies
La solución preferida de Janzen a este problema clásico consistía en construir máquinas para identificar especies a partir de su ADN . Su presupuesto previsto y su equipo de investigación propuesto es de "1 millón de dólares y cinco personas brillantes". Sin embargo, los desarrollos recientes en las arquitecturas de computadoras, así como las innovaciones en el diseño de software, han puesto las herramientas necesarias para hacer realidad la visión de Janzen en manos de la comunidad de la sistemática y la ciencia de la computación , no dentro de varios años, sino ahora; y no solo para crear códigos de barras de ADN , sino también para la identificación basada en imágenes digitales .
Un estudio seminal publicado en 2004, [3] estudia por qué la identificación automatizada de especies no se había utilizado ampliamente en este momento y si sería una opción realista para el futuro. Los autores encontraron que "un número pequeño pero creciente de estudios buscaba desarrollar sistemas automatizados de identificación de especies basados en caracteres morfológicos". Una descripción general de 20 estudios que analizan las estructuras de las especies, como las células, el polen, las alas y los genitales, muestra tasas de éxito de identificación entre el 40% y el 100% en conjuntos de entrenamiento con 1 a 72 especies. Sin embargo, también identificaron cuatro problemas fundamentales con estos sistemas: (1) conjuntos de entrenamiento: eran demasiado pequeños (5-10 especímenes por especie) y su extensión, especialmente para especies raras, puede ser difícil, (2) errores en la identificación, no son suficientemente estudiados para manejarlos y encontrar sistemáticas, (3) escalado - los estudios consideran solo un pequeño número de especies (<200 especies), y (4) especies nuevas - los sistemas están restringidos a las especies para las que han sido entrenados y clasificarán cualquier novedad observación como una de las especies conocidas.
Una encuesta publicada en 2017 [4] compara y analiza sistemáticamente el progreso y los hallazgos hacia la identificación automatizada de especies de plantas en la última década (2005-2015). Se han publicado 120 estudios primarios en lugares de alta calidad durante este tiempo, principalmente por autores con formación en informática. Estos estudios proponen una gran cantidad de enfoques de visión por computadora , es decir, características que reducen la alta dimensionalidad de los datos de imagen basados en píxeles mientras se preserva la información característica, así como los métodos de clasificación. La gran mayoría de estos estudios analiza las hojas para su identificación, mientras que solo 13 estudios proponen métodos para la identificación basada en flores . Las razones son que las hojas se pueden recolectar y tomar imágenes más fácilmente y están disponibles la mayor parte del año. Las características propuestas capturan características genéricas del objeto, es decir, forma , textura y color , así como características específicas de la hoja, es decir, venación y margen. La mayoría de los estudios todavía usaban conjuntos de datos para la evaluación que no contenían más de 250 especies . Sin embargo, hay avances en este sentido, un estudio utiliza un conjunto de datos con> 2k [5] y otro con> 20k [6] especies .
Estos desarrollos no podrían haber llegado en mejor momento. Como ya sabe la comunidad taxonómica , el mundo se está quedando sin especialistas que puedan identificar la propia biodiversidad cuya preservación se ha convertido en una preocupación mundial. Al comentar este problema en paleontología ya en 1993, Roger Kaesler [7] reconoció:
“… Nos estamos quedando sin paleontólogos sistemáticos que tengan algo que se acerque al conocimiento sinóptico de un grupo importante de organismos… Es poco probable que los paleontólogos del próximo siglo puedan darse el lujo de tratar en profundidad los problemas taxonómicos… La paleontología tendrá que mantener su nivel de entusiasmo sin la ayuda de los sistemáticos, que han contribuido tanto a su éxito ".
Esta deficiencia de experiencia afecta tan profundamente a las industrias comerciales que dependen de identificaciones precisas (por ejemplo, agricultura , bioestratigrafía ) como a una amplia gama de programas de investigación pura y aplicada (por ejemplo, conservación , oceanografía biológica , climatología , ecología ). También se reconoce comúnmente, aunque de manera informal, que la literatura técnica y taxonómica de todos los grupos de organismos está plagada de ejemplos de identificaciones inconsistentes e incorrectas. Esto se debe a una variedad de factores, incluidos los taxónomos que no están suficientemente capacitados y capacitados para realizar identificaciones (p. Ej., Utilizar diferentes reglas generales para reconocer los límites entre grupos similares), descripciones o ilustraciones de grupos originales insuficientemente detalladas, acceso inadecuado hasta monografías actuales y colecciones bien curadas y, por supuesto, taxonomistas que tienen opiniones diferentes sobre conceptos de grupo. La revisión por pares solo elimina los errores más obvios de comisión u omisión en esta área, y solo cuando un autor proporciona representaciones adecuadas (por ejemplo, ilustraciones, registros y secuencias de genes) de los especímenes en cuestión.
La sistemática también tiene mucho que ganar, tanto en la práctica como en la teoría, con el mayor desarrollo y uso de los sistemas de identificación automatizados. Ahora se reconoce ampliamente que los días de la sistemática como un campo poblado por individuos ligeramente excéntricos que persiguen el conocimiento en un espléndido aislamiento de las prioridades de financiación y los imperativos económicos están llegando rápidamente a su fin. [ cita requerida ] Para atraer tanto personal como recursos, la sistemática debe transformarse en una “empresa científica internacional grande, coordinada” [8] Muchos han identificado el uso de Internet , especialmente a través de la World Wide Web , como el medio a través de que se puede hacer esta transformación. Si bien el establecimiento de un sistema virtual similar a GenBank para acceder a datos morfológicos , clips de audio, archivos de video, etc., sería un paso significativo en la dirección correcta, el acceso mejorado a la información de observación y / o descripciones basadas en texto por sí solas no abordará ninguno de estos problemas. el impedimento taxonómico o problemas de baja reproducibilidad de identificación con éxito. En cambio, la subjetividad inevitable asociada con la toma de decisiones críticas sobre la base de criterios cualitativos debe reducirse o, como mínimo, integrarse en un contexto analítico más formal.
Los sistemas de identificación automatizados, robustos, flexibles y correctamente diseñados, organizados en torno a arquitecturas informáticas distribuidas y referenciados a colecciones de datos de conjuntos de entrenamiento identificadas con autoridad (por ejemplo, imágenes y secuencias de genes ) pueden, en principio, proporcionar a todos los sistemáticos acceso a los datos electrónicos. archivos y las herramientas analíticas necesarias para manejar identificaciones rutinarias de taxones comunes. Los sistemas correctamente diseñados también pueden reconocer cuando sus algoritmos no pueden realizar una identificación confiable y remitir esa imagen a un especialista (cuya dirección se puede acceder desde otra base de datos). Dichos sistemas también pueden incluir elementos de inteligencia artificial y, por lo tanto, mejoran su rendimiento cuanto más se utilizan. Lo más tentador es que una vez que se han desarrollado modelos morfológicos (o moleculares) de una especie y se ha demostrado que son precisos, estos modelos pueden consultarse para determinar qué aspectos de los patrones observados de variación y límites de variación se están utilizando para lograr la identificación, abriendo así el camino para el descubrimiento de caracteres taxonómicos nuevos y (potencialmente) más fiables.
- iNaturalist es un proyecto de ciencia ciudadana global y una red social de naturalistas que incorpora la identificación tanto humana como automática de plantas, animales y otras criaturas vivientes a través de un navegador o aplicaciones móviles. [9]
- Pl @ ntNet es un proyecto global de ciencia ciudadana que proporciona una aplicación y un sitio web para la identificación de plantas a través de fotografías, basado en el aprendizaje automático.
- Leaf Snap es una aplicación de iOS desarrollada por la Institución Smithsonian que utiliza un software de reconocimiento visual para identificar especies de árboles de América del Norte a partir de fotografías de hojas.
- El bot FlowerChecker es un Chatterbot de Facebook que utiliza un software de reconocimiento visual para identificar especies de plantas a partir de fotografías. El bot utiliza plant una base de datos recopilada por la aplicación FlowerChecker para teléfonos móviles.
- Google Photos puede identificar automáticamente varias especies en fotografías. [10]
- Plant.id es una aplicación web que utiliza una red neuronal entrenada en fotos de la aplicación FlowerChecker [11] [12]
- Flora Incognita es una aplicación desarrollada como parte de un proyecto de investigación y utiliza una cascada de redes neuronales convolucionales para identificar plantas en base a imágenes y datos de ubicación. [13]
Ver también
- Clave de acceso múltiple
Referencias citadas
- ^ Wäldchen, Jana; Mäder, Patrick (noviembre de 2018). Cooper, Natalie (ed.). "Machine learning para la identificación de especies basada en imágenes". Métodos en ecología y evolución . 9 (11): 2216–2225. doi : 10.1111 / 2041-210X.13075 .
- ^ Janzen, Daniel H. (22 de marzo de 2004). "Ahora es el momento" . Transacciones filosóficas de la Royal Society de Londres . B. 359 (1444): 731–732. doi : 10.1098 / rstb.2003.1444 . PMC 1693358 . PMID 15253359 .
- ^ Gaston, Kevin J .; O'Neill, Mark A. (22 de marzo de 2004). "Reconocimiento automatizado de especies: ¿por qué no?" . Transacciones filosóficas de la Royal Society de Londres . B. 359 (1444): 655–667. doi : 10.1098 / rstb.2003.1442 . PMC 1693351 . PMID 15253351 .
- ^ Wäldchen, Jana; Mäder, Patrick (7 de enero de 2017). "Identificación de especies de plantas mediante técnicas de visión por computadora: una revisión sistemática de la literatura" . Archivos de métodos computacionales en ingeniería . 25 (2): 507–543. doi : 10.1007 / s11831-016-9206-z . ISSN 1134-3060 . PMC 6003396 . PMID 29962832 .
- ^ Joly, Alexis; Goëau, Hervé; Bonnet, Pierre; Bakić, Vera; Barbe, Julien; Selmi, Souheil; Yahiaoui, Itheri; Carré, Jennifer; Mouysset, Elise (1 de septiembre de 2014). "Identificación interactiva de plantas basada en datos de imagen social" . Informática Ecológica . Número especial de Multimedia en Ecología y Medio Ambiente. 23 : 22–34. doi : 10.1016 / j.ecoinf.2013.07.006 .
- ^ Wu, Huisi; Wang, Lei; Zhang, Feng; Wen, Zhenkun (1 de agosto de 2015). "Reconocimiento automático de hojas a partir de una gran base de datos de imágenes jerárquicas". Revista Internacional de Sistemas Inteligentes . 30 (8): 871–886. doi : 10.1002 / int.21729 . ISSN 1098-111X . S2CID 12917626 .
- ^ Kaesler, Roger L (1993). "Una ventana de oportunidad: asomarse a un nuevo siglo de paleontología". Revista de Paleontología . 67 (3): 329–333. doi : 10.1017 / S0022336000036805 . JSTOR 1306022 .
- ^ Wheeler, Quentin D. (2003). "Transformando la taxonomía" (PDF) (22). El sistemático: 3-5. Cite journal requiere
|journal=
( ayuda ) - ^ "Exploraciones de visión artificial de iNaturalist" . iNaturalist.org . 2017-07-27 . Consultado el 12 de agosto de 2017 .
- ^ "Cómo Google Photos marca la diferencia entre perros, gatos, osos y cualquier otro animal en tus fotos" . 2015-06-04.
- ^ MLMU.cz - FlowerChecker: emocionante viaje de una startup de ML - O. Veselý & J. Řihák - YouTube
- ^ "Tvůrci FlowerCheckeru spouštějí Shazam pro kytky. Plant.id staví na AI" .
- ^ "El enfoque de Flora Incognita" .
enlaces externos
Aquí hay algunos enlaces a las páginas de inicio de los sistemas de identificación de especies. El sistema SPIDA y DAISY son esencialmente genéricos y capaces de clasificar cualquier material de imagen presentado. El sistema ABIS y DrawWing están restringidos a insectos con alas membranosas, ya que operan haciendo coincidir un conjunto específico de caracteres según la venación de las alas.
- El sistema SPIDA
- ABIS
- MARGARITA
- DibujarAla
- LeafSnap
- Pl @ ntNet