Christopher D Paice fue uno de los pioneros en la investigación de la derivación . El lematizador Paice-Husk se publicó en 1990 y su método de evaluación del rendimiento del lematizador mediante la tasa de error con respecto al truncamiento (ERRT) fue el primer método directo de comparar errores de subprocesamiento y sobreprocesamiento. Aparte de su trabajo pionero sobre algoritmos derivados y métodos de evaluación, realizó otras contribuciones de investigación en el área de recuperación de información , resolución de anáforas y abstracción automática. [1] [2]
Carrera docente
Christopher D Paice fue miembro de la Escuela de Computación y Comunicaciones (SCC) de la Universidad de Lancaster , Reino Unido durante aproximadamente cuarenta años, inicialmente se unió al entonces Departamento de Estudios de Computación como Investigador Asociado en 1969-70; luego pasando a una cátedra. Fue Jefe de Departamento en funciones en 1977-78, Jefe de Departamento de 1979-82 y se jubiló en 2009. [3]
El algoritmo de derivación de cáscara de Paice
El Stemmer Paice-Husk fue desarrollado por Chris D Paice con la ayuda de Gareth Husk en el Departamento de Computación de la Universidad de Lancaster, a finales de la década de 1980, presenta un conjunto de reglas de derivación almacenadas externamente, y esta flexibilidad sobre el Stemmer Porter lo hizo de interés para varios investigadores. [4]
Implementado originalmente en el lenguaje de programación Pascal, se han realizado más implementaciones utilizando ANSI C y Java. Mary Taffet implementó una versión en Perl en el Centro de Procesamiento del Lenguaje Natural de la Universidad de Syracuse, EE. UU. [5]
El derivador consta de un algoritmo de derivación y un conjunto separado de reglas de derivación. El conjunto de reglas estándar proporciona un lematizador "fuerte". La fuerza del tallo es una cualidad que es ventajosa para la compresión del índice, sin embargo, produce un mayor número de errores de sobrepegado en relación con el número de errores de subpelo; los usuarios que necesitan una lectora más ligera pueden desarrollar fácilmente su propio conjunto de reglas.
El Stemmer es iterativo (es decir, los finales se eliminan poco a poco en un número indefinido de etapas) y las reglas pueden especificar la eliminación o reemplazo de un final. La técnica de reemplazo evita la necesidad de una etapa separada en el proceso para recodificar o proporcionar una coincidencia parcial; esto ayuda a mantener la eficiencia del algoritmo. Las reglas están indexadas por la última letra del final para permitir una búsqueda eficiente. [6]
Evaluación de Stemmer
Aparte del propio Stemmer, Chris Paice desarrolló un método para medir directamente el rendimiento de los lematizadores utilizando listas agrupadas de palabras aplicadas al lematizador, contando el número de errores de sobretemporada y subtema, y luego comparando los resultados con los que se habrían obtenido mediante el uso de una conjunto de destellos de truncamiento. La medida final es la tasa de error relativa al truncamiento (ERRT). [7] [8]
Vida personal
Christopher D Paice nació en 1941, se casó con Kathleen F Moss en 1965 en el distrito de registro de Manchester. En 2015 le diagnosticaron un tumor cerebral agresivo, poco después de que él y su esposa se mudaran de Cumbria a Stratford, falleció el 21 de abril de 2016.
Publicaciones
- CD Paice (1977). Recuperación de información y la computadora . Macdonald y Jane's, Londres.
- CD Paice (1980). Actas SIGIR '80 La generación automática de resúmenes de literatura: un enfoque basado en la identificación de frases autoindicables . Butterworth. ISBN 0-408-10775-8.
- CD Paice (1984). Aplicaciones de desarrollo de investigación de tecnología de la información: volumen 3, número 1, evaluación suave de consultas de búsqueda booleana en sistemas de recuperación de información . Butterworth.
- CD Paice; V. Aragón-Ramírez (1985). RIAO '85: Recherche d'Informations Assistée par Ordinateur, El cálculo de similitudes entre cadenas de varias palabras utilizando un tesauro . LE CENTRE DE HAUTES ETUDES INTERNATIONALES D'INFORMATIQUE DOCUMENTAIRE.
- CD Paice (1986). Actas de ASLIB: Volumen 38 Número 10, ¿Sistemas expertos para la recuperación de información? . Aslib, la Asociación para la Gestión de la Información.
- CD Paice (1990). Procesamiento y gestión de la información: una revista internacional, volumen 26, número 1. Construcción de resúmenes de literatura por computadora: técnicas y perspectivas . Pergamon Press, Inc.
- CD Paice (1990). Tratamiento y gestión de la información: una revista internacional, volumen 27, número 5 Un modelo de tesis de recuperación de información . Pergamon Press, Inc.
- CD Paice (1991). Foro ACM SIGIR: Volumen 24 Número 3 Otro tallador . ACM.
- FC Johnson; CD Paice; WJ Black; AP Neal (1997). Lecturas en la recuperación de información: la aplicación del procesamiento lingüístico a la generación automática de abstractos . Morgan Kaufmann Publishers Inc.
- Michael B. Twidale; David M. Nichols; Chris D. Paice (1997). Tratamiento y gestión de la información: una revista internacional: volumen 33, número 6, La exploración es un proceso colaborativo . Pergamon Press, Inc.
- Michael P. Oakes; CD Paice (1999). IRSG'99: Actas de la 21ª conferencia anual BCS-IRSG sobre investigación de recuperación de información La generación automática de plantillas para resúmenes automáticos . BCS.
- CD Paice (2009). Análisis léxico de datos textuales. Enciclopedia de sistemas de bases de datos . Springer, Estados Unidos. págs. 1606-1610. ISBN 978-0-387-35544-3.
- CD Paice (2009). Derivado. Enciclopedia de sistemas de bases de datos . Springer, Estados Unidos. págs. 2790–2793. ISBN 978-0-387-35544-3.
Referencias
- ^ [1] , Universidad de Trier, Bibliografía de informática de DBLP
- ^ [2] , página de autor de ACM, CD Paice
- ^ [3] , Universidad de Lancaster, En memoria de Chris Paice
- ^ [4] , Mejoras en el algoritmo de derivación de Lancaster (derivación de cáscara de Paice), Antonio Zamora
- ^ [5] , GitHub, Paice-Husk Stemmer en varios idiomas
- ^ "Copia archivada" . Archivado desde el original el 22 de agosto de 2006 . Consultado el 22 de agosto de 2006 .Mantenimiento de CS1: copia archivada como título ( enlace )
- ^ Paice, CD, (1994) Un método de evaluación para algoritmos derivados, en Croft, WB y van Rijsbergen, CJ (eds.), Actas de la 17ª conferencia ACM SIGIR celebrada en Dublín, 3 al 6 de julio de 1994; págs. 42-50.
- ^ Paice, CD (1996) Método para la evaluación de algoritmos de derivación basados en el recuento de errores, JASIS, 47 (8): 632-649