Apache cTAKES: el sistema de extracción de conocimientos y análisis de texto clínico es un sistema de procesamiento del lenguaje natural (NLP) de código abierto que extrae información clínica del texto no estructurado de la historia clínica electrónica . Procesa notas clínicas, identificando tipos de entidades clínicas nombradas: medicamentos, enfermedades / trastornos, signos / síntomas, sitios anatómicos y procedimientos. Cada entidad nombrada tiene atributos para el intervalo de texto, el código de mapeo de la ontología, el contexto (historia familiar de, actual, no relacionado con el paciente) y negado / no negado. [1]
Desarrollador (es) | Fundación de software Apache |
---|---|
Lanzamiento estable | 4.0.0 / 25 de abril de 2017 |
Repositorio | cToma repositorio |
Escrito en | Java , Scala |
Sistema operativo | Multiplataforma |
Tipo | Procesamiento de lenguaje natural , Bioinformática , Minería de textos , Extracción de información |
Licencia | Licencia Apache 2.0 |
Sitio web | toma |
cTAKES se creó utilizando el marco de arquitectura de gestión de información no estructurada UIMA y el kit de herramientas de procesamiento de lenguaje natural OpenNLP . [2] [3]
Componentes
Los componentes de cTAKES están entrenados específicamente para el dominio clínico y crean anotaciones lingüísticas y semánticas ricas que pueden ser utilizadas por los sistemas de apoyo a las decisiones clínicas y la investigación clínica. [4]
Estos componentes incluyen:
- Identificador de sección con nombre
- Detector de límites de oraciones
- Tokenizador basado en reglas
- Identificador de lista formateado
- Normalizador
- Tokenizador dependiente del contexto
- Etiquetador de parte del discurso
- Fragmento de frase
- Anotador de búsqueda de diccionario
- Anotador de contexto
- Detector de negación
- Detector de incertidumbre
- Detector de sujetos
- Analizador de dependencias
- identificador del estado de tabaquismo del paciente
- Anotador de menciones de drogas
Historia
El desarrollo de cTAKES comenzó en la Clínica Mayo en 2006. El equipo de desarrollo, dirigido por la Dra. Guergana Savova y el Dr. Christopher Chute , incluía médicos, científicos informáticos e ingenieros de software. Después de su implementación, cTAKES se convirtió en una parte integral de la infraestructura de administración de datos clínicos de Mayo, procesando más de 80 millones de notas clínicas. [5]
Cuando el Dr. Savova's se mudó al Boston Children's Hospital a principios de 2010, el equipo de desarrollo central creció para incluir miembros allí. Otras colaboraciones externas incluyen: [5]
- Universidad de Colorado
- Universidad de Brandeis
- Universidad de Pittsburgh
- Universidad de California en San Diego
Estas colaboraciones han ampliado las capacidades de cTAKES a otras áreas como el razonamiento temporal, la respuesta a preguntas clínicas y la resolución de correferencias para el dominio clínico. [5]
En 2010, cTAKES fue adoptado por el programa i2b2 y es un componente central del Área 4 de SHARP . [5]
En 2013, cTAKES lanzó su primera versión como proyecto de incubadora de Apache: cTAKES 3.0 .
En marzo de 2013, cTAKES se convirtió en un proyecto de nivel superior de Apache (TLP). [5]
Ver también
Referencias
- ↑ Denecke, Kerstin (31 de agosto de 2015). "Herramientas y recursos para la extracción de información" . Ciencia web de la salud: datos de redes sociales para el cuidado de la salud . Saltador. pag. 67 . ISBN 978-3-319-20582-3 - a través de Google Books.
- ^ Khalifa, Abdulrahman; Meystre, Stéphane (1 de diciembre de 2015). "Adaptar los recursos de procesamiento del lenguaje natural existentes para la identificación de factores de riesgo cardiovascular en notas clínicas" . Revista de Informática Biomédica . Actas de 2014 i2b2 / UTHealth Shared-Tasks y Workshop on Challenges in Natural Language Processing for Clinical Data. 58 (Suplemento): S128 – S132. doi : 10.1016 / j.jbi.2015.08.002 . PMC 4983192 . PMID 26318122 .
- ^ Khudairi, Sally (25 de abril de 2017). "La Apache Software Foundation anuncia Apache® cTAKES ™ v4.0" (Comunicado de prensa). Forest Hill, MD: La Fundación de Software Apache. Globe Newswire . Consultado el 20 de septiembre de 2017 .
- ^ Savova, Guergana K; Masanz, James J; Ogren, Felipe V; Zheng, Jiaping; Sohn, Sunghwan; Kipper-Schuler, Karin C; Chute, Christopher G (2010). "Sistema de extracción de conocimiento y análisis de texto clínico de Mayo (cTAKES): arquitectura, evaluación de componentes y aplicaciones" . Revista de la Asociación Estadounidense de Informática Médica . 17 (5): 507–513. doi : 10.1136 / jamia.2009.001560 . ISSN 1067-5027 . PMC 2995668 . PMID 20819853 .
- ^ a b c d e "Historia" . Apache cTAKES ™: sistema de extracción de conocimientos de análisis de texto clínico . 2015-06-22 . Consultado el 11 de enero de 2018 .
enlaces externos
- Sitio web oficial de cTAKES
- Página de información del proyecto Apache cTAKES de ASF
- Resumen (JAMIA)
- Consorcio Open Health Natural Language Processing (OHNLP)
- Programa de Proyectos de Investigación Avanzada de TI de Salud Estratégica (SHARP)
- Área SHARP 4 - Uso secundario de datos EHR
- La consola de recuperación automatizada (ARC)
- La extracción de texto de información sanitaria (HITEx) se desarrolló como parte del proyecto i2b2. Es un proceso de PNL basado en reglas que se basa en el marco GATE desarrollado por Informatics for Integrating Biology and the Bedside .
- El kit de herramientas de investigación de educación y lenguaje computacional (cleartk) ( ya no se mantiene ) se ha desarrollado en la Universidad de Colorado en Boulder y proporciona un marco para desarrollar componentes estadísticos de PNL en Java. Está construido sobre Apache UIMA .
- NegEx : es una herramienta desarrollada en la Universidad de Pittsburgh para detectar términos negados del texto clínico. El sistema utiliza términos de activación como método para determinar posibles escenarios de negación dentro de una oración.
- ConText ): una extensión de NegEx, y también es desarrollado por la Universidad de Pittsburgh. ConText extiende NegEx no solo para detectar conceptos negados, sino también para encontrar escenarios temporales (recientes, históricos o hipotéticos) y quién es el Sujeto (de la experiencia) (paciente u otro).
- MetaMap (de la Biblioteca Nacional de Medicina de los Estados Unidos ): es un sistema integral de etiquetado de conceptos que se basa en el Sistema Unificado de Lenguaje Médico . Requiere un acuerdo de licencia UMLS Metathesaurus activo (y una cuenta) para su uso.
- MedEx : una herramienta para extraer información sobre medicamentos a partir de textos clínicos. MedEx procesa los registros clínicos de texto libre para reconocer los nombres de los medicamentos y la información de la firma, como la dosis, la frecuencia, la vía y la duración del medicamento. El uso es gratuito con una licencia UMLS. Es una aplicación independiente para Linux y Windows.
- SecTag (jerarquía de etiquetado de secciones): reconoce los encabezados de las secciones de notas mediante técnicas de PNL, Bayesiano, corrección ortográfica y puntuación. El uso es gratuito con una licencia UMLS o LOINC.
- ( Stanford Named Entity Recognizer (NER) ): Stanford's NER es un modelo de secuencia de campo aleatorio condicional, junto con características bien diseñadas para el reconocimiento de entidades nombradas en inglés y alemán.
- ( Stanford CoreNLP ) es un conjunto integrado de herramientas de procesamiento de lenguaje natural para inglés en Java, que incluyen tokenización , etiquetado de parte de la voz, reconocimiento de entidades con nombre, análisis y correferencia.