La respuesta a preguntas ( QA ) es una disciplina de las ciencias de la computación dentro de los campos de la recuperación de información y el procesamiento del lenguaje natural (PNL), que se ocupa de la construcción de sistemas que responden automáticamente a las preguntas planteadas por los humanos en un lenguaje natural . [1]
Descripción general
Una implementación de respuesta a preguntas, generalmente un programa de computadora, puede construir sus respuestas consultando una base de datos estructurada de conocimiento o información, generalmente una base de conocimiento . Más comúnmente, los sistemas de respuesta a preguntas pueden obtener respuestas de una colección no estructurada de documentos en lenguaje natural.
Algunos ejemplos de colecciones de documentos en lenguaje natural que se utilizan para los sistemas de respuesta a preguntas incluyen:
- una colección local de textos de referencia
- documentos de organización interna y páginas web
- informes compilados de newswire
- un conjunto de páginas de Wikipedia
- un subconjunto de páginas de la World Wide Web
La investigación de respuesta a preguntas intenta abordar una amplia gama de tipos de preguntas que incluyen: hechos, lista, definición , cómo , por qué , preguntas hipotéticas, semánticamente restringidas y en varios idiomas.
- La respuesta a preguntas de dominio cerrado trata con preguntas de un dominio específico (por ejemplo, medicina o mantenimiento automotriz) y puede explotar el conocimiento específico del dominio frecuentemente formalizado en ontologías . Alternativamente, dominio cerrado puede referirse a una situación en la que solo se acepta un tipo limitado de preguntas, como preguntas que piden información descriptiva en lugar de procedimental . Los sistemas de respuesta a preguntas en el contexto de las aplicaciones de lectura automática también se han construido en el ámbito médico, por ejemplo, relacionados con la enfermedad de Alzheimer. [2]
- La respuesta a preguntas de dominio abierto trata con preguntas sobre casi cualquier cosa, y solo puede depender de ontologías generales y conocimiento del mundo. Por otro lado, estos sistemas suelen tener muchos más datos disponibles de los que extraer la respuesta.
Historia
Los dos primeros sistemas de respuesta a preguntas fueron el BÉISBOL [3] y el LUNAR. [4] BÉISBOL respondió preguntas sobre la liga de béisbol de las Grandes Ligas durante un período de un año. LUNAR, a su vez, respondió preguntas sobre el análisis geológico de las rocas devueltas por las misiones lunares de Apolo. Ambos sistemas de respuesta a preguntas fueron muy efectivos en los dominios que eligieron. De hecho, LUNAR se demostró en una convención de ciencia lunar en 1971 y pudo responder el 90% de las preguntas en su dominio planteadas por personas no capacitadas en el sistema. En los años siguientes se desarrollaron más sistemas de respuesta a preguntas de dominio restringido. La característica común de todos estos sistemas es que tenían una base de datos central o un sistema de conocimiento escrito a mano por expertos del dominio elegido. Las habilidades lingüísticas de BASEBALL y LUNAR utilizaron técnicas similares a ELIZA y DOCTOR , los primeros programas de chatbot .
SHRDLU fue un programa de respuesta a preguntas de gran éxito desarrollado por Terry Winograd a fines de la década de 1960 y principios de la de 1970. Simuló el funcionamiento de un robot en un mundo de juguete (el "mundo de los bloques") y ofreció la posibilidad de hacerle preguntas al robot sobre el estado del mundo. Una vez más, la fuerza de este sistema fue la elección de un dominio muy específico y un mundo muy simple con reglas de la física que eran fáciles de codificar en un programa de computadora.
En la década de 1970, se desarrollaron bases de conocimiento dirigidas a dominios de conocimiento más estrechos. Los sistemas de respuesta a preguntas desarrollados para interactuar con estos sistemas expertos produjeron respuestas más repetibles y válidas a las preguntas dentro de un área de conocimiento. Estos sistemas expertos se parecían mucho a los sistemas modernos de respuesta a preguntas, excepto en su arquitectura interna. Los sistemas expertos se basan en gran medida en bases de conocimiento organizadas y construidas por expertos , mientras que muchos sistemas modernos de respuesta a preguntas se basan en el procesamiento estadístico de un corpus de texto grande, no estructurado y en lenguaje natural.
Las décadas de 1970 y 1980 vieron el desarrollo de teorías integrales en lingüística computacional , que llevaron al desarrollo de proyectos ambiciosos en comprensión de textos y respuesta a preguntas. Un ejemplo de tal sistema fue el Unix Consultant (UC), desarrollado por Robert Wilensky en UC Berkeley a finales de la década de 1980. El sistema respondió preguntas relacionadas con el sistema operativo Unix . Tenía una base de conocimientos integral hecha a mano de su dominio y tenía como objetivo redactar la respuesta para adaptarse a varios tipos de usuarios. Otro proyecto fue LILOG, un sistema de comprensión de textos que operaba en el dominio de la información turística en una ciudad alemana. Los sistemas desarrollados en los proyectos UC y LILOG nunca pasaron de la etapa de demostraciones simples, pero ayudaron al desarrollo de teorías sobre lingüística computacional y razonamiento.
Se han desarrollado sistemas especializados de respuesta a preguntas en lenguaje natural, como EAGLi para científicos de la salud y la vida.
Arquitectura
A partir de 2001, los sistemas de respuesta a preguntas generalmente incluían un módulo clasificador de preguntas que determina el tipo de pregunta y el tipo de respuesta. [5]
Métodos de respuesta a preguntas
La respuesta a preguntas depende en gran medida de un buen corpus de búsqueda, ya que sin documentos que contengan la respuesta, es poco lo que puede hacer cualquier sistema de respuesta a preguntas. Por lo tanto, tiene sentido que los tamaños de colección más grandes generalmente se presten bien a un mejor rendimiento de respuesta a preguntas, a menos que el dominio de la pregunta sea ortogonal a la colección. La noción de redundancia de datos en colecciones masivas, como la web, significa que es probable que las pepitas de información se expresen de muchas formas diferentes en diferentes contextos y documentos, [6] lo que genera dos beneficios:
- Al tener la información correcta en muchas formas, se reduce la carga del sistema de respuesta a preguntas para realizar técnicas complejas de PNL para comprender el texto.
- Las respuestas correctas se pueden filtrar de los falsos positivos confiando en que la respuesta correcta aparezca más veces en los documentos que casos de respuestas incorrectas.
Algunos sistemas de respuesta a preguntas se basan en gran medida en el razonamiento automatizado . [7] [8]
Respuesta a preguntas de dominio abierto
En la recuperación de información , un sistema de respuesta a preguntas de dominio abierto tiene como objetivo devolver una respuesta en respuesta a la pregunta del usuario. La respuesta devuelta está en forma de textos breves en lugar de una lista de documentos relevantes. [9] El sistema utiliza una combinación de técnicas de lingüística computacional , recuperación de información y representación del conocimiento para encontrar respuestas.
El sistema toma una pregunta en lenguaje natural como entrada en lugar de un conjunto de palabras clave, por ejemplo, "¿Cuándo es el día nacional de China?" Luego, la oración se transforma en una consulta a través de su forma lógica . Tener la entrada en forma de una pregunta en lenguaje natural hace que el sistema sea más fácil de usar, pero más difícil de implementar, ya que hay varios tipos de preguntas y el sistema tendrá que identificar la correcta para dar una respuesta sensata. Asignar un tipo de pregunta a la pregunta es una tarea crucial, todo el proceso de extracción de respuestas se basa en encontrar el tipo de pregunta correcto y, por lo tanto, el tipo de respuesta correcto.
La extracción de palabras clave es el primer paso para identificar el tipo de pregunta de entrada. [10] En algunos casos, hay palabras claras que indican directamente el tipo de pregunta, es decir, "Quién", "Dónde" o "Cuántos", estas palabras le dicen al sistema que las respuestas deben ser del tipo "Persona", " Ubicación "o" Número ", respectivamente. En el ejemplo anterior, la palabra "Cuándo" indica que la respuesta debe ser del tipo "Fecha". Las técnicas de etiquetado POS (parte del discurso) y análisis sintáctico también se pueden utilizar para determinar el tipo de respuesta. En este caso, el tema es "Día Nacional de China", el predicado es "es" y el modificador adverbial es "cuándo", por lo tanto, el tipo de respuesta es "Fecha". Desafortunadamente, algunas palabras interrogativas como "Cuál", "Qué" o "Cómo" no ofrecen tipos de respuesta claros. Cada una de estas palabras puede representar más de un tipo. En situaciones como esta, se deben considerar otras palabras de la pregunta. Lo primero que debe hacer es encontrar las palabras que puedan indicar el significado de la pregunta. A continuación, se puede utilizar un diccionario léxico como WordNet para comprender el contexto.
Una vez que se ha identificado el tipo de pregunta, se utiliza un sistema de recuperación de información para encontrar un conjunto de documentos que contengan las palabras clave correctas. Se puede usar un etiquetador y un fragmento NP / Verb Group para verificar si las entidades y relaciones correctas se mencionan en los documentos encontrados. Para preguntas como "Quién" o "Dónde", se utiliza un reconocedor de entidad con nombre para encontrar los nombres relevantes de "Persona" y "Ubicación" de los documentos recuperados. Solo se seleccionan los párrafos relevantes para la clasificación.
Se puede utilizar un modelo de espacio vectorial como estrategia para clasificar las respuestas de los candidatos. Compruebe si la respuesta es del tipo correcto según se determinó en la etapa de análisis del tipo de pregunta. También se puede utilizar una técnica de inferencia para validar las respuestas de los candidatos. A continuación, se le da una puntuación a cada uno de estos candidatos de acuerdo con el número de palabras de pregunta que contiene y qué tan cerca están estas palabras del candidato, cuanto más y más cerca, mejor. Luego, la respuesta se traduce en una representación compacta y significativa mediante el análisis sintáctico. En el ejemplo anterior, la respuesta de salida esperada es "1 de octubre".
Respuesta a preguntas matemáticas
En 2018 se publicó un sistema de respuesta a preguntas de código abierto consciente de las matemáticas basado en Ask Platypus y Wikidata. [11] El sistema toma una pregunta en lenguaje natural en inglés o hindi como entrada y devuelve una fórmula matemática recuperada de Wikidata como respuesta sucinta. La fórmula resultante se traduce a una forma computable, lo que permite al usuario insertar valores para las variables. Los nombres y valores de las variables y las constantes comunes se recuperan de Wikidata si están disponibles. Se afirma que el sistema supera a un motor comercial de conocimiento matemático computacional en un conjunto de pruebas.
Los métodos MathQA deben combinar el lenguaje natural y de fórmulas. Un posible enfoque es realizar anotaciones supervisadas a través de Entity Linking. La "Tarea ARQMath" en CLEF 2020 [12] se lanzó para abordar el problema de vincular las preguntas recién publicadas desde la plataforma Math Stack Exchange (MSE) con las existentes que ya fueron respondidas por la comunidad. [13] El laboratorio fue motivado por el hecho de que Mansouri et al. descubrió que el 20% de las consultas matemáticas en los motores de búsqueda de propósito general se expresan como preguntas bien formadas. [14] Contenía dos subtareas separadas. Tarea 1: "Recuperación de respuestas" que hace coincidir las respuestas de las publicaciones antiguas con las preguntas recién planteadas y Tarea 2: "Recuperación de fórmulas" que hace coincidir las fórmulas de las publicaciones antiguas con las preguntas nuevas. Comenzando con el dominio de las matemáticas, que involucra el lenguaje de fórmulas, el objetivo es luego extender la tarea a otros dominios (p. Ej., Disciplinas STEM, como química, biología, etc.), que emplean otros tipos de notación especial (p. Ej., Química fórmulas). [12] [13]
Progreso
Los sistemas de respuesta a preguntas se han ampliado en los últimos años para abarcar dominios adicionales del conocimiento [15]. Por ejemplo, se han desarrollado sistemas para responder automáticamente preguntas temporales y geoespaciales, preguntas de definición y terminología, preguntas biográficas, preguntas multilingües y preguntas sobre el contenido. de audio, imágenes, [16] y video. [17] Las preguntas actuales que responden a temas de investigación incluyen:
- interactividad: aclaración de preguntas o respuestas [18]
- reutilización de respuestas o almacenamiento en caché [ cita requerida ]
- análisis semántico [19]
- presentación de respuesta [20]
- representación y razonamiento del conocimiento
- análisis de redes sociales con sistemas de respuesta a preguntas
- análisis de sentimiento [21]
- utilización de funciones temáticas [22]
- resolución semántica: para cerrar la brecha entre preguntas sintácticamente diferentes y textos que contienen respuestas [23]
- utilización de recursos lingüísticos, [24] como WordNet , FrameNet y similares
- Subtítulos de imagen para responder preguntas visuales [16]
En 2011, Watson , un sistema informático de respuesta a preguntas desarrollado por IBM , compitió en dos partidos de exhibición de Jeopardy! contra Brad Rutter y Ken Jennings , ganando por un margen significativo. [25] Facebook Research ha hecho que su sistema DrQA [26] esté disponible bajo una licencia de código abierto . Este sistema se ha utilizado para responder preguntas de dominio abierto utilizando Wikipedia como fuente de conocimiento. [27]
Referencias
- ^ Philipp Cimiano; Christina Unger; John McCrae (1 de marzo de 2014). Interpretación del lenguaje natural basada en ontologías . Editores Morgan & Claypool. ISBN 978-1-60845-990-2.
- ^ Roser Morante, Martin Krallinger, Alfonso Valencia y Walter Daelemans. Lectura automática de textos biomédicos sobre la enfermedad de Alzheimer . Laboratorios y taller de evaluación de CLEF 2012. 17 de septiembre de 2012
- ^ GREEN JR, Bert F; et al. (1961). "Béisbol: un contestador automático de preguntas" (PDF) . Conferencia informática conjunta occidental IRE-AIEE-ACM : 219-224.
- ^ Woods, William A; Kaplan, R. (1977). "Rocas lunares en inglés natural: exploraciones en respuesta a preguntas de lenguaje natural". Procesamiento de estructuras lingüísticas 5 . 5 : 521–569.
- ^ Hirschman, L. y Gaizauskas, R. (2001) Respuesta a preguntas de lenguaje natural. La vista desde aquí . Ingeniería del lenguaje natural (2001), 7: 4: 275-300 Cambridge University Press.
- ^ Lin, J. (2002). La Web como recurso para responder preguntas: perspectivas y desafíos . En Actas de la Tercera Conferencia Internacional sobre Recursos y Evaluación del Lenguaje (LREC 2002).
- ^ Moldavo, Dan, et al. " Cogex: un probador de lógica para responder preguntas ". Actas de la Conferencia de 2003 del Capítulo Norteamericano de la Asociación de Lingüística Computacional sobre Tecnología del Lenguaje Humano-Volumen 1. Asociación de Lingüística Computacional, 2003.
- ^ Furbach, Ulrich, Ingo Glöckner y Björn Pelzer. " Una aplicación de razonamiento automatizado en la respuesta a preguntas en lenguaje natural ". Ai Communications 23.2-3 (2010): 241-265.
- ^ Sun, haitiano; Dhingra, Bhuwan; Zaheer, Manzil; Mazaitis, Kathryn; Salakhutdinov, Ruslan; Cohen, William (2018). "Respuesta a preguntas de dominio abierto utilizando la fusión temprana de bases de conocimiento y texto" . Actas de la Conferencia de 2018 sobre métodos empíricos en el procesamiento del lenguaje natural . Bruselas, Belgica. págs. 4231–4242. arXiv : 1809.00782 . doi : 10.18653 / v1 / D18-1455 . S2CID 52154304 .
- ^ Harabagiu, Sanda; Hickl, Andrew (2006). "Métodos para utilizar la implicación textual en la respuesta a preguntas de dominio abierto" . Actas de la 21ª Conferencia Internacional de Lingüística Computacional y la 44ª reunión anual de la ACL - ACL '06 . págs. 905–912. doi : 10.3115 / 1220175.1220289 .
- ^ Moritz Schubotz; Philipp Scharpf; et al. (12 de septiembre de 2018). "Presentación de MathQA: un sistema de respuesta a preguntas de Math-Aware" . Descubrimiento y entrega de información . Emerald Publishing Limited. 46 (4): 214–224. doi : 10.1108 / IDD-06-2018-0022 .
- ^ a b Zanibbi, Richard; Oard, Douglas W .; Agarwal, Anurag; Mansouri, Behrooz (2020), "Descripción general de ARQMath 2020: CLEF Lab sobre la recuperación de respuestas para preguntas sobre matemáticas" , Lecture Notes in Computer Science , Cham: Springer International Publishing, págs. 169-193, doi : 10.1007 / 978-3- 030-58219-7_15 , ISBN 978-3-030-58218-0, consultado el 9 de junio de 2021
- ^ a b Bela, Scharpf, Philipp Schubotz, Moritz Greiner-Petter, Andre Ostendorff, Malte Teschke, Olaf Gipp (4 de diciembre de 2020). ARQMath Lab: ¿Una incubadora para la búsqueda de fórmulas semánticas en zbMATH Open? . OCLC 1228449497 .
- ^ Mansouri, Behrooz; Zanibbi, Richard; Oard, Douglas W. (junio de 2019). "Caracterización de búsquedas de conceptos matemáticos" . Conferencia conjunta ACM / IEEE de 2019 sobre bibliotecas digitales (JCDL) . IEEE: 57–66. doi : 10.1109 / jcdl.2019.00019 . ISBN 978-1-7281-1547-4. S2CID 198972305 .
- ^ Paşca, Marius (2005). "Reseña del libro New Directions in Question Respondiendo a Mark T. Maybury (editor) (MITRE Corporation) Menlo Park, CA: AAAI Press y Cambridge, MA: The MIT Press, 2004, xi + 336 pp; encuadernado en papel, ISBN 0-262-63304 -3, $ 40,00, £ 25,95 ". Lingüística computacional . 31 (3): 413–417. doi : 10.1162 / 089120105774321055 . S2CID 12705839 .
- ^ a b Anderson, Peter, et al. " Atención de abajo hacia arriba y de arriba hacia abajo para subtítulos de imágenes y respuesta visual a preguntas ". Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones. 2018.
- ^ Zhu, Linchao, et al. " Descubriendo el contexto temporal para la respuesta de preguntas en video ". Revista Internacional de Visión por Computadora 124.3 (2017): 409-421.
- ^ Quarteroni, Silvia y Suresh Manandhar. " Diseño de un sistema interactivo de respuesta a preguntas de dominio abierto ". Ingeniería del lenguaje natural 15.1 (2009): 73-95.
- ^ Yih, Wen-tau, Xiaodong He y Christopher Meek. " Análisis semántico para la respuesta a preguntas de relación única ". Actas de la 52ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 2: Artículos breves). 2014.
- ^ Perera, R., Nand, P. y Naeem, A. 2017. Utilización de patrones de subárbol de dependencia tipificada para la generación de oraciones de respuesta en sistemas de respuesta a preguntas.
- ^ "BitCrawl por Hobson Lane" . Archivado desde el original el 27 de octubre de 2012 . Consultado el 29 de mayo de 2012 .CS1 maint: bot: estado de URL original desconocido ( enlace )
- ^ Perera, R. y Perera, U. 2012. Hacia un modelo de identificación de objetivos basado en roles temáticos para la respuesta a preguntas.
- ^ Bahadorreza Ofoghi; John Yearwood y Liping Ma (2008). El impacto de la identificación de clases semánticas y el etiquetado de roles semánticos en la extracción de respuestas en lenguaje natural . La 30ª Conferencia Europea de Recuperación de Información (ECIR'08). Springer Berlín Heidelberg. págs. 430–437. doi : 10.1007 / 978-3-540-78646-7_40 .
- ^ Bahadorreza Ofoghi; John Yearwood y Liping Ma (2009). "El impacto de los niveles de anotación semántica de cuadros, técnicas de alineación de cuadros y métodos de fusión en el procesamiento de respuestas factoides". Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 60 (2): 247–263. doi : 10.1002 / asi.20989 .
- ^ Markoff, John (16 de febrero de 2011). "En 'Jeopardy!' Watson Win es todo menos trivial " . The New York Times .
- ^ "DrQA" .
- ^ Chen, Danqi; Fisch, Adam; Weston, Jason; Bordes, Antoine (2017). "Leer Wikipedia para responder preguntas de dominio abierto". arXiv : 1704.00051 [ cs.CL ].
Otras lecturas
- Dragomir R. Radev, John Prager y Valerie Samn. Clasificación de respuestas sospechosas a preguntas de lenguaje natural mediante anotaciones predictivas . En Actas de la Sexta Conferencia sobre Procesamiento del Lenguaje Natural Aplicado, Seattle, WA, mayo de 2000.
- John Prager, Eric Brown, Anni Coden y Dragomir Radev. Respuesta a preguntas mediante anotación predictiva . En Actas, 23a Conferencia Anual Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información, Atenas, Grecia, julio de 2000.
- Hutchins, W. John ; Harold L. Somers (1992). Introducción a la traducción automática . Londres: Academic Press. ISBN 978-0-12-362830-5.
- L. Fortnow, Steve Homer (2002/2003). Una breve historia de la complejidad computacional . En D. van Dalen, J. Dawson y A. Kanamori, editores, The History of Mathematical Logic . Holanda Septentrional, Amsterdam.
enlaces externos
- Evaluación de respuesta a preguntas en NTCIR
- Evaluación de preguntas y respuestas en TREC
- Evaluación de preguntas y respuestas en CLEF
- Respuestas a las preguntas del cuestionario
- Sistema de respuesta a preguntas en línea