La indexación automática es el proceso computarizado de escanear grandes volúmenes de documentos contra un vocabulario , taxonomía , tesauro u ontología controlados y usar esos términos controlados para indexar rápida y eficazmente grandes depósitos de documentos electrónicos . Estas palabras clave o lenguaje se aplican entrenando un sistema sobre las reglas que determinan qué palabras deben coincidir. Hay partes adicionales de esto, como sintaxis, uso, proximidad y otros algoritmos basados en el sistema y lo que se requiere para la indexación. Esto se tiene en cuenta mediante el uso de declaraciones booleanas para recopilar y capturar la información de indexación del texto.[1] A medida que el número de documentos aumenta exponencialmente con la proliferación de Internet , la indexación automática será esencial para mantener la capacidad de encontrar información relevante en un mar de información irrelevante. Los sistemas de lenguaje natural se utilizan para entrenar un sistema basado en siete métodos diferentes para ayudar con este mar de información irrelevante. Estos métodos son morfológico, léxico, sintáctico, numérico, fraseológico, semántico y pragmático. Cada uno de estos aspectos y diferentes partes de velocidad y términos para construir un dominio para la información específica que se cubre para la indexación. Esto se utiliza en el proceso automatizado de indexación. [1]
El proceso automatizado puede encontrar problemas y estos se deben principalmente a dos factores: 1) la complejidad del idioma; y, 2) la falta de intuición y la dificultad de extrapolar conceptos a partir de enunciados por parte de la tecnología informática. [2] Estos son principalmente desafíos lingüísticos y los problemas específicos involucran aspectos semánticos y sintácticos del lenguaje. [2] Estos problemas se producen en función de palabras clave definidas. Con estas palabras clave, puede determinar la precisión del sistema en función de los aciertos, los errores y el ruido. Estos términos se relacionan con coincidencias exactas, palabras clave que un sistema computarizado pasó por alto y que un humano no, y palabras clave que la computadora seleccionó y que un humano no tendría. La estadística de precisión basada en esto debe estar por encima del 85% para los hits sobre el 100% para la indexación humana. Esto hace que los errores y el ruido combinados sean del 15% o menos. Esta escala proporciona una base para lo que se considera un buen sistema de indexación automática y muestra dónde se encuentran los problemas. [1]
Historia
Hay académicos que citan que el tema de la indexación automática atrajo la atención ya en la década de 1950, particularmente con la demanda de un acceso más rápido y completo a la literatura científica y de ingeniería. [3] Esta atención en la indexación comenzó con el procesamiento de texto entre 1957 y 1959 por HP Lunh a través de una serie de artículos que fueron publicados. Lunh propuso que una computadora podría manejar la concordancia de palabras clave, la clasificación y el análisis de contenido. Este fue el comienzo de la indexación automática y la fórmula para extraer palabras clave del texto en función del análisis de frecuencia. Más tarde se determinó que la frecuencia por sí sola no era suficiente para buenos descriptores; sin embargo, esto inició el camino hacia donde estamos ahora con la indexación automática. [4] Esto se puso de relieve por la explosión de la información, que se predijo en la década de 1960 [5] y se produjo a través de la aparición de la tecnología de la información y la World Wide Web. La predicción fue preparada por Mooers donde se creó un esquema con el rol esperado que tendría la informática para el procesamiento de texto y la recuperación de información. Esta predicción decía que las máquinas se usarían para el almacenamiento de documentos en grandes colecciones y que las usaríamos para realizar búsquedas. Mooers también predijo el aspecto en línea y el entorno de recuperación para la indexación de bases de datos. Esto llevó a Mooers a predecir una máquina de inferencia de inducción que revolucionaría la indexación. [4] Este fenómeno requirió el desarrollo de un sistema de indexación que pueda hacer frente al desafío de almacenar y organizar una gran cantidad de datos y pueda facilitar el acceso a la información. [6] [7] El nuevo hardware electrónico avanzó aún más en la indexación automatizada, ya que superó la barrera impuesta por los archivos de papel antiguos, permitiendo la codificación de información a nivel molecular. [5] Con este nuevo hardware electrónico se desarrollaron herramientas para ayudar a los usuarios. Estos se utilizaron para administrar archivos y se organizaron en diferentes categorías, como PDM Suites como Outlook o Lotus Note y herramientas de mapas mentales como MindManager y Freemind. Estos permiten a los usuarios centrarse en el almacenamiento y la construcción de un modelo cognitivo. [8] La indexación automática también está impulsada en parte por la aparición del campo llamado lingüística computacional , que dirigió la investigación que finalmente produjo técnicas como la aplicación del análisis informático a la estructura y el significado de los lenguajes. [3] [9] La indexación automática se ve impulsada aún más por la investigación y el desarrollo en el área de la inteligencia artificial y el sistema autoorganizado, también conocido como máquina pensante. [3]
Ver también
- Indexación de materias : el proceso que se automatiza mediante la indexación automática
- Etiqueta (metadatos)
- Indexación web
Referencias
- ↑ a b c Hlava, Marjorie M. (31 de enero de 2005). "Indexación automática: una cuestión de grado" . Boletín de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 29 (1): 12-15. doi : 10.1002 / bult.261 .
- ^ a b Cleveland, Ana; Cleveland, Donald (2013). Introducción a la indexación y el resumen: cuarta edición . Santa Bárbara, CA: ABC-CLIO. pag. 289. ISBN 9781598849769.
- ^ a b c Riaz, Muhammad (1989). Prácticas avanzadas de indexación y abstracción . Delhi: Atlantic Publishers & Distributors. pag. 263.
- ^ a b Nota histórica: Los últimos treinta años en la recuperación de información Salton, Gerard Journal de la Sociedad Estadounidense de Ciencias de la Información (1986-1998); Septiembre de 1987; 38, 5; ProQuest pág. 375
- ^ a b Torres-Moreno, Juan-Manuel (2014). Resumen de texto automático . Hoboken, Nueva Jersey: John Wiley & Sons. págs. xii. ISBN 9781848216686.
- ^ Kapetanios, Epaminondas; Sugumarán, Vijayan; Lenguaje natural y sistemas de información: 13ª Conferencia internacional sobre aplicaciones del lenguaje natural a los sistemas de información, NLDB 2008 Londres, Reino Unido, 24-27 de junio de 2008, Actas, Myra (2008). Lenguaje natural y sistemas de información: 13ª Conferencia internacional sobre aplicaciones del lenguaje natural a los sistemas de información, NLDB 2008 Londres, Reino Unido, 24-27 de junio de 2008, Actas . Berlín: Springer Science & Business Media. pag. 350. ISBN 978-3-540-69857-9.CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Basch, Reva (1996). Secretos de los súper buscadores de la red: las reflexiones, las revelaciones y la sabiduría ganada con esfuerzo de 35 de los principales investigadores de Internet del mundo . Medford, Nueva Jersey: Information Today, Inc. págs. 271 . ISBN 0910965226.
- ^ Jayaweera, YD; Johar, Md Gapar Md; Perera, SN "Open Journal Systems" . Cite journal requiere
|journal=
( ayuda ) - ^ Armstrong, Susan (1994). Usando grandes corpora . Cambridge, MA: MIT Press. pag. 291. ISBN 0262510820.