En lingüística , la semántica estadística aplica los métodos de la estadística al problema de determinar el significado de palabras o frases, idealmente a través del aprendizaje no supervisado , con un grado de precisión al menos suficiente para el propósito de la recuperación de información .
Historia
El término semántica estadística fue utilizado por primera vez por Warren Weaver en su conocido artículo sobre traducción automática . [1] Argumentó que la desambiguación del sentido de las palabras para la traducción automática debería basarse en la frecuencia de co-ocurrencia de las palabras de contexto cerca de una palabra objetivo dada. La suposición subyacente de que "una palabra se caracteriza por la compañía que mantiene" fue defendida por JR Firth . [2] Este supuesto se conoce en lingüística como la hipótesis distributiva . [3] Emile Delavenay definió la semántica estadística como el "estudio estadístico de los significados de las palabras y su frecuencia y orden de recurrencia". [4] " Furnas et al. 1983" se cita con frecuencia como una contribución fundamental a la semántica estadística. [5] Un éxito temprano en el campo fue el análisis semántico latente .
Aplicaciones
La investigación en semántica estadística ha dado como resultado una amplia variedad de algoritmos que utilizan la hipótesis distributiva para descubrir muchos aspectos de la semántica , mediante la aplicación de técnicas estadísticas a grandes corpora :
- Medir la similitud en los significados de las palabras [6] [7] [8] [9]
- Medir la similitud en las relaciones entre palabras [10]
- Modelado de generalizaciones basadas en similitudes [11]
- Descubriendo palabras con una relación determinada [12]
- Clasificación de relaciones entre palabras [13]
- Extracción de palabras clave de documentos [14] [15]
- Medir la cohesión del texto [16]
- Descubriendo los diferentes sentidos de las palabras [17]
- Distinguir los diferentes sentidos de las palabras [18]
- Aspectos subcognitivos de las palabras [19]
- Distinguir elogios de las críticas [20]
Campos relacionados
La semántica estadística se enfoca en los significados de palabras comunes y las relaciones entre palabras comunes, a diferencia de la minería de texto , que tiende a enfocarse en documentos completos, colecciones de documentos o entidades con nombre (nombres de personas, lugares y organizaciones). La semántica estadística es un subcampo de la semántica computacional , que a su vez es un subcampo de la lingüística computacional y el procesamiento del lenguaje natural .
Muchas de las aplicaciones de la semántica estadística (enumeradas anteriormente) también pueden abordarse mediante algoritmos basados en el léxico , en lugar de los algoritmos basados en corpus de la semántica estadística. Una ventaja de los algoritmos basados en corpus es que normalmente no son tan laboriosos como los algoritmos basados en léxicos. Otra ventaja es que suelen ser más fáciles de adaptar a nuevos lenguajes que los algoritmos basados en léxicos. Sin embargo, el mejor rendimiento en una aplicación a menudo se logra combinando los dos enfoques. [21]
Ver también
- Co-ocurrencia
- Ligüística computacional
- Recuperación de información
- Análisis semántico latente
- Indexación semántica latente
- Analítica semántica
- Similitud semántica
- Procesamiento estadístico del lenguaje natural
- Corpus de texto
- Extracción de textos
- Minería web
Referencias
- ↑ Weaver, 1955
- ^ Firth 1957
- ^ Sahlgren 2008
- ^ Delavenay 1960
- ^ Furnas y col. 1983
- ^ Lund, Burgess y Atchley 1995
- ^ Landauer y Dumais 1997
- ^ McDonald y Ramscar 2001
- ^ Terra y Clarke 2003
- ^ Turney 2006
- ^ Yarlett 2008
- ^ Hearst 1992
- ^ Turney y Littman 2005
- ^ Frank y col. 1999
- ^ Turney 2000
- ^ Turney 2003
- ^ Pantel y Lin 2002
- ^ Turney 2004
- ^ Turney 2001
- ^ Turney y Littman 2003
- ^ Turney y col. 2003
Fuentes
- Delavenay, Emile (1960). Introducción a la traducción automática . Nueva York, NY: Thames and Hudson . OCLC 1001646 .
- Firth, John R. (1957). "Una sinopsis de la teoría lingüística 1930-1955". Estudios de Análisis Lingüístico . Oxford: Sociedad Filológica : 1–32.
- Reimpreso en Palmer, FR, ed. (1968). Artículos seleccionados de JR Firth 1952-1959 . Londres: Longman. OCLC 123573912 .
- Frank, Eibe; Paynter, Gordon W .; Witten, Ian H .; Gutwin, Carl; Nevill-Manning, Craig G. (1999). "Extracción de frase clave específica del dominio". Actas de la Decimosexta Conferencia Conjunta Internacional sobre Inteligencia Artificial . IJCAI-99 . 2 . California: Morgan Kaufmann. págs. 668–673. CiteSeerX 10.1.1.148.3598 . ISBN 1-55860-613-0.
- Furnas, George W .; Landauer, TK; Gómez, LM; Dumais, ST (1983). "Semántica estadística: Análisis del rendimiento potencial de los sistemas de información de palabras clave" (PDF) . Revista técnica de Bell System . 62 (6): 1753–1806. doi : 10.1002 / j.1538-7305.1983.tb03513.x . S2CID 22483184 . Archivado desde el original (PDF) el 4 de marzo de 2016 . Consultado el 12 de julio de 2012 .
- Hearst, Marti A. (1992). "Adquisición automática de hipónimos de grandes corpora de texto" (PDF) . Actas de la XIV Conferencia Internacional de Lingüística Computacional . COLING '92 . Nantes, Francia. págs. 539–545. CiteSeerX 10.1.1.36.701 . doi : 10.3115 / 992133.992154 . Archivado desde el original (PDF) el 22 de mayo de 2012 . Consultado el 12 de julio de 2012 .
- Landauer, Thomas K .; Dumais, Susan T. (1997). "Una solución al problema de Platón: La teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento" . Revisión psicológica . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . doi : 10.1037 / 0033-295x.104.2.211 .
- Lund, Kevin; Burgess, Curt; Atchley, Ruth Ann (1995). "Cebado semántico y asociativo en el espacio semántico de alta dimensión" (PDF) . Actas de la 17ª Conferencia Anual de la Sociedad de Ciencias Cognitivas . Sociedad de Ciencias Cognitivas . págs. 660–665.[ enlace muerto permanente ]
- McDonald, Scott; Ramscar, Michael (2001). "Prueba de la hipótesis distributiva: la influencia del contexto en los juicios de similitud semántica" (PDF) . Actas de la 23ª Conferencia Anual de la Sociedad de Ciencias Cognitivas . págs. 611–616. CiteSeerX 10.1.1.104.7535 .[ enlace muerto permanente ]
- Pantel, Patrick; Lin, Dekang (2002). "Descubriendo los sentidos de las palabras a partir del texto". Actas de la conferencia ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos . KDD '02 . págs. 613–619. CiteSeerX 10.1.1.12.6771 . doi : 10.1145 / 775047.775138 . ISBN 1-58113-567-X.
- Sahlgren, Magnus (2008). "La hipótesis distributiva" (PDF) . Rivista di Linguistica . 20 (1): 33–53.
- Terra, Egidio L .; Clarke, Charles LA (2003). "Estimaciones de frecuencia para medidas estadísticas de similitud de palabras" (PDF) . Actas de la Conferencia sobre Tecnología del Lenguaje Humano y el Capítulo Norteamericano de la Asociación de Lingüística Computacional de 2003 . HLT / NAACL 2003. págs. 244-251. CiteSeerX 10.1.1.12.9041 . doi : 10.3115 / 1073445.1073477 . Archivado desde el original (PDF) en 2013-11-03 . Consultado el 12 de julio de 2012 .
- Turney, Peter D. (mayo de 2000). "Aprendizaje de algoritmos para extracción de frases clave". Recuperación de información . 2 (4): 303–336. arXiv : cs / 0212020 . CiteSeerX 10.1.1.11.1829 . doi : 10.1023 / A: 1009976227802 . S2CID 7007323 .
- Turney, Peter D. (2001). "Responder a preguntas subcognitivas de la prueba de Turing: una respuesta al francés". Revista de Inteligencia Artificial Experimental y Teórica . 13 (4): 409–419. arXiv : cs / 0212015 . CiteSeerX 10.1.1.12.8734 . doi : 10.1080 / 09528130110100270 . S2CID 59099 .
- Turney, Peter D. (2003). "Extracción coherente de frases clave mediante minería web". Actas de la Decimoctava Conferencia Conjunta Internacional sobre Inteligencia Artificial . IJCAI-03. Acapulco, México. págs. 434–439. arXiv : cs / 0308033 . Bibcode : 2003cs ........ 8033T . CiteSeerX 10.1.1.100.3751 .
- Turney, Peter D. (2004). "Desambiguación del sentido de la palabra por minería web para probabilidades de co-ocurrencia de palabras" . Actas del Tercer Taller Internacional sobre Evaluación de Sistemas para el Análisis Semántico de Texto . SENSEVAL-3. Barcelona, España. págs. 239–242. arXiv : cs / 0407065 . Bibcode : 2004cs ........ 7065T .
- Turney, Peter D. (2006). "Similitud de relaciones semánticas" . Lingüística computacional . 32 (3): 379–416. arXiv : cs / 0608100 . Código Bibliográfico : 2006cs ........ 8100T . CiteSeerX 10.1.1.75.8007 . doi : 10.1162 / coli.2006.32.3.379 . S2CID 2468783 .
- Turney, Peter D .; Littman, Michael L. (octubre de 2003). "Medir el elogio y la crítica: Inferencia de orientación semántica a partir de la asociación" . Transacciones ACM sobre sistemas de información . 21 (4): 315–346. arXiv : cs / 0309034 . Código Bibliográfico : 2003cs ........ 9034T . CiteSeerX 10.1.1.9.6425 . doi : 10.1145 / 944012.944013 . S2CID 2024 .
- Turney, Peter D .; Littman, Michael L. (2005). "Aprendizaje de analogías y relaciones semánticas basado en corpus" . Aprendizaje automático . 60 (1-3): 251-278. arXiv : cs / 0508103 . Código Bibliográfico : 2005cs ........ 8103T . CiteSeerX 10.1.1.90.9819 . doi : 10.1007 / s10994-005-0913-1 . S2CID 9322367 .
- Turney, Peter D .; Littman, Michael L .; Bigham, Jeffrey; Shnayder, Victor (2003). "Combinación de módulos independientes para resolver problemas de analogía y sinónimos de opción múltiple" . Actas de la Conferencia internacional sobre avances recientes en el procesamiento del lenguaje natural . RANLP-03. Borovets , Bulgaria. págs. 482–489. arXiv : cs / 0309035 . Código Bibliográfico : 2003cs ........ 9035T . CiteSeerX 10.1.1.5.2939 .
- Weaver, Warren (1955). "Traducción" (PDF) . En Locke, WN; Booth, DA (eds.). Traducción Automática de Idiomas . Cambridge, Massachusetts : MIT Press . págs. 15-23. ISBN 0-8371-8434-7.
- Yarlett, Daniel G. (2008). Aprendizaje de idiomas a través de la generalización basada en similitudes (PDF) (tesis doctoral). Universidad Stanford. Archivado desde el original (PDF) el 19 de abril de 2014.