Similitud semántica

Este artículo tiene varios problemas. Ayude a mejorarlo o discuta estos problemas en la página de discusión . ( Obtenga información sobre cómo y cuándo eliminar estos mensajes de plantilla )

Este artículo necesita citas adicionales para su verificación . Por favor, ayuda a mejorar este artículo mediante la adición de citas de fuentes confiables . El material no obtenido puede ser cuestionado y eliminado.
Buscar fuentes: "Similitud semántica" - noticias · periódicos · libros · académico · JSTOR ( diciembre de 2010 ) ( Aprenda cómo y cuándo eliminar este mensaje de plantilla )

Este artículo tiene un estilo de cita poco claro . Las referencias utilizadas pueden aclararse con un estilo diferente o coherente de citas y notas al pie . ( Diciembre de 2010 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

( Aprenda cómo y cuándo eliminar este mensaje de plantilla )

La similitud semántica es una métrica definida sobre un conjunto de documentos o términos, donde la idea de distancia entre elementos se basa en la semejanza de su significado o contenido semántico en oposición a la similitud lexicográfica . Son herramientas matemáticas que se utilizan para estimar la fuerza de la relación semántica entre unidades de lenguaje, conceptos o instancias, a través de una descripción numérica obtenida de acuerdo a la comparación de información que sustenta su significado o describe su naturaleza. ^[1]^[2] El término similitud semántica a menudo se confunde con relación semántica. Relación semánticaincluye cualquier relación entre dos términos, mientras que la similitud semántica solo incluye relaciones "es a". ^[3] Por ejemplo, "coche" es similar a "autobús", pero también está relacionado con "carretera" y "conducción".

Computacionalmente, la similitud semántica se puede estimar definiendo una similitud topológica , utilizando ontologías para definir la distancia entre términos / conceptos. Por ejemplo, una métrica ingenua para la comparación de conceptos ordenados en un conjunto parcialmente ordenado y representados como nodos de un gráfico acíclico dirigido (por ejemplo, una taxonomía ), sería el camino más corto que une los dos nodos de conceptos. Basado en análisis de texto, la relación semántica entre unidades de lenguaje (por ejemplo, palabras, oraciones) también se puede estimar usando medios estadísticos como un modelo de espacio vectorial para correlacionar palabras y contextos textuales de un corpus de texto adecuado.. La evaluación de las medidas de similitud / relación semántica propuestas se evalúa a través de dos formas principales. El primero se basa en el uso de conjuntos de datos diseñados por expertos y compuestos por pares de palabras con estimación de grado de similitud / relación semántica. La segunda vía se basa en la integración de las medidas dentro de aplicaciones específicas como la recuperación de información, sistemas de recomendación, procesamiento del lenguaje natural, etc.

Terminología [ editar ]

El concepto de similitud semántica es más específico que el de parentesco semántico , ya que este último incluye conceptos como antonimia y meronimia , mientras que similitud no. ^[4] Sin embargo, gran parte de la literatura usa estos términos indistintamente, junto con términos como distancia semántica. En esencia, la similitud semántica, la distancia semántica y la relación semántica significan: "¿Cuánto tiene que ver el término A con el término B?" La respuesta a esta pregunta suele ser un número entre -1 y 1, o entre 0 y 1, donde 1 significa similitud extremadamente alta.

Visualización [ editar ]

Una forma intuitiva de visualizar la similitud semántica de los términos es agrupando los términos que están estrechamente relacionados y separando más los que están relacionados de forma lejana. Esto también es común en la práctica para mapas mentales y mapas conceptuales .

Se puede ver una forma más directa de visualizar la similitud semántica de dos elementos lingüísticos con el enfoque de plegado semántico . En este enfoque, un elemento lingüístico, como un término o un texto, puede representarse generando un píxel para cada una de sus características semánticas activas en, por ejemplo, una cuadrícula de 128 x 128. Esto permite una comparación visual directa de la semántica de dos elementos comparando representaciones de imágenes de sus respectivos conjuntos de características.

Aplicaciones [ editar ]

En informática biomédica [ editar ]

Se han aplicado y desarrollado medidas de similitud semántica en ontologías biomédicas. ^[5]^[6] Se utilizan principalmente para comparar genes y proteínas basándose en la similitud de sus funciones más que en la similitud de su secuencia , pero también se están extendiendo a otras bioentidades, como las enfermedades. ^[7]

Estas comparaciones se pueden realizar utilizando herramientas disponibles gratuitamente en la web:

ProteInOn se puede utilizar para encontrar proteínas que interactúan, encontrar términos GO asignados y calcular la similitud semántica funcional de las proteínas UniProt y obtener el contenido de información y calcular la similitud semántica funcional de los términos GO. ^[8]
CMPSim proporciona una medida de similitud funcional entre compuestos químicos y vías metabólicas utilizando medidas de similitud semántica basadas en ChEBI . ^[9]
CESSM proporciona una herramienta para la evaluación automatizada de medidas de similitud semántica basadas en GO. ^[10]

En geoinformática [ editar ]

La similitud también se aplica en geoinformática para encontrar características geográficas o tipos de características similares : ^[11]

El servidor de similitud SIM-DL ^[12] se puede utilizar para calcular similitudes entre conceptos almacenados en ontologías de tipo de característica geográfica.
La Calculadora de similitud se puede utilizar para calcular qué tan bien relacionados están dos conceptos geográficos en la ontología Geo-Net-PT. ^[13]^[14]
La red semántica OSM se puede utilizar para calcular la similitud semántica de las etiquetas en OpenStreetMap . ^[15]

En lingüística computacional [ editar ]

Varias métricas utilizan WordNet , una base de datos léxica de palabras en inglés construida manualmente. A pesar de las ventajas de contar con supervisión humana para construir la base de datos, dado que las palabras no se aprenden automáticamente, la base de datos no puede medir la relación entre vocabulario no incremental de términos de varias palabras. ^[4]^[16]

En el procesamiento del lenguaje natural [ editar ]

El procesamiento del lenguaje natural (PNL) es un campo de la informática y la lingüística. El análisis de sentimientos, la comprensión del lenguaje natural y la traducción automática (traducir texto automáticamente de un idioma humano a otro) son algunas de las áreas principales en las que se utiliza. Por ejemplo, al conocer un recurso de información en Internet, a menudo resulta de interés inmediato encontrar recursos similares. La Web Semántica proporciona extensiones semánticas para encontrar datos similares por contenido y no solo por descriptores arbitrarios. ^[17]^[18]^[19]^[20]^[21]^[22]^[23]^[24]^[25] Aprendizaje profundoLos métodos se han convertido en una forma precisa de medir la similitud semántica entre dos pasajes de texto, en la que cada pasaje se incrusta primero en una representación vectorial continua. ^[26]^[27]^[28]

Medidas [ editar ]

Similitud topológica [ editar ]

Básicamente, existen dos tipos de enfoques que calculan la similitud topológica entre conceptos ontológicos:

Basado en bordes: que utilizan los bordes y sus tipos como fuente de datos;
Basado en nodos: en el que las principales fuentes de datos son los nodos y sus propiedades.

Otras medidas calculan la similitud entre instancias ontológicas:

Por pares: mida la similitud funcional entre dos instancias combinando las similitudes semánticas de los conceptos que representan
En grupo: calcular la similitud directamente sin combinar las similitudes semánticas de los conceptos que representan

Algunos ejemplos:

Basado en el borde [ editar ]

Pekar y col. ^[29]
Cheng y Cline ^[30]
Wu y col. ^[31]
Del Pozo y col. ^[32]
IntelliGO: Benabderrahmane et al. ^[6]

Basado en nodos [ editar ]

Resnik ^[33]
- basado en la noción de contenido de información . El contenido de información de un concepto (término o palabra) es el logaritmo de la probabilidad de encontrar el concepto en un corpus dado.
- solo considera el contenido de información del subsumidor común más bajo (lcs). Un subsumidor común más bajo es un concepto en una taxonomía léxica (por ejemplo, WordNet), que tiene la distancia más corta de los dos conceptos comparados. Por ejemplo, tanto el animal como el mamífero son subsumidores del gato y el perro, pero el mamífero es un subsumidor menor que el animal para ellos.
Lin ^[34]
- basado en la similitud de Resnik.
- considera el contenido de información del subsumidor común más bajo (lcs) y los dos conceptos comparados.
Maguitman, Menczer , Roinestad y Vespignani ^[35]
- Generaliza la similitud de Lin con ontologías arbitrarias (gráficos).
Jiang y Conrath ^[36]
- basado en la similitud de Resnik.
- considera el contenido de información del subsumidor común más bajo (lcs) y los dos conceptos comparados para calcular la distancia entre los dos conceptos. La distancia se utiliza posteriormente para calcular la medida de similitud.
Alinear, eliminar ambigüedades y caminar : paseos aleatorios en redes semánticas ^[37]

Basado en contenido de nodos y relaciones [ editar ]

aplicable a la ontología
considerar las propiedades (contenido) de los nodos
considerar tipos (contenido) de relaciones
basado en eTVSM ^[38]
basado en la similitud de Resnik ^[39]

Por parejas [ editar ]

máximo de las similitudes por pares
promedio compuesto en el que solo se consideran los pares con mejor coincidencia (promedio de mejor coincidencia)

En grupo [ editar ]

Índice de Jaccard

Similitud estadística [ editar ]

Los enfoques de similitud estadística se pueden aprender de los datos o predefinir. El aprendizaje de similitudes a menudo puede superar las medidas de similitud predefinidas. En términos generales, estos enfoques construyen un modelo estadístico de documentos y lo utilizan para estimar la similitud.

LSA ( Análisis semántico latente ) ^[40]^[41] (+) basado en vectores, agrega vectores para medir términos de varias palabras; (-) vocabulario no incremental, largos tiempos de preprocesamiento
PMI ( Pointwise mutual information ) (+) vocabulario extenso, porque utiliza cualquier motor de búsqueda (como Google); (-) no puede medir la relación entre oraciones o documentos completos
SOC-PMI ( información mutua puntual de co-ocurrencia de segundo orden ) (+) clasifica listas de palabras vecinas importantes de un corpus grande; (-) no puede medir la relación entre oraciones o documentos completos
GLSA (Análisis semántico latente generalizado) (+) basado en vectores, agrega vectores para medir términos de varias palabras; (-) vocabulario no incremental, largos tiempos de preprocesamiento
ICAN (Construcción incremental de una red asociativa) (+) medida incremental basada en la red, buena para difundir la activación, representa la relación de segundo orden; (-) no puede medir la relación entre términos de varias palabras, largos tiempos de preprocesamiento
NGD ( distancia normalizada de Google ) (+) vocabulario grande, porque utiliza cualquier motor de búsqueda (como Google); (-) puede medir la relación entre oraciones o documentos completos, pero cuanto más grande es la oración o el documento, más ingenio se requiere, Cilibrasi & Vitanyi (2007), referencia a continuación. ^[42]
TSS - Similitud semántica de Twitter - vocabulario extenso en pdf , porque utiliza tweets en línea de Twitter para calcular la similitud. Posee alta resolución temporal que permite capturar eventos de alta frecuencia. Fuente abierta
NCD ( distancia de compresión normalizada )
ESA (Análisis semántico explícito) basado en Wikipedia y el ODP
SSA (Salient Semantic Analysis) que indexa términos utilizando conceptos destacados que se encuentran en su contexto inmediato.
n ° de Wikipedia (ahora) , inspirado en el juego Six Degrees of Wikipedia , es una métrica de distancia basada en la estructura jerárquica de Wikipedia. Primero se construye un gráfico acíclico dirigido y luego se emplea el algoritmo de ruta más corta de Dijkstra para determinar el valor actual entre dos términos como la distancia geodésica entre los temas correspondientes (es decir, los nodos) en el gráfico.
VGEM (Generación vectorial de un espacio semántico multidimensional definido explícitamente) (+) vocabulario incremental, puede comparar términos de varias palabras (-) el rendimiento depende de la elección de dimensiones específicas
SimRank
NASARI : ^[43] Representaciones vectoriales dispersas construidas aplicando la distribución hipergeométrica sobre el corpus de Wikipedia en combinación con la taxonomía de BabelNet . Actualmente, la similitud entre idiomas también es posible gracias a la extensión multilingüe y unificada. ^[44]

Similitud basada en semántica [ editar ]

Aprobación de marcadores: combinación de la descomposición léxica para la creación automatizada de ontologías y la aprobación de marcadores el enfoque de Fähndrich et al. introduce un nuevo tipo de medida de similitud semántica. ^[45] Aquí se pasan marcadores de los dos conceptos objetivo que llevan una cantidad de activación. Esta activación puede aumentar o disminuir en función del peso de las relaciones con las que se relacionan los conceptos. Esto combina enfoques basados en bordes y nodos e incluye razonamiento conexionista con información simbólica.
Buena medida de similitud semántica basada en el subsumidor común (GCS) ^[46]

Estándares de oro [ editar ]

Los investigadores han recopilado conjuntos de datos con juicios de similitud en pares de palabras, que se utilizan para evaluar la plausibilidad cognitiva de las medidas computacionales. El estándar de oro hasta hoy es una antigua lista de 65 palabras donde los humanos han juzgado la similitud de palabras. ^[47] Para obtener una lista de conjuntos de datos y una descripción general del estado del arte, consulte https://www.aclweb.org/ .

RG65 ^[48]
MC30 ^[49]
WordSim353 ^[50]

Ver también [ editar ]

Analogía : proceso cognitivo de transferir información o significado de un tema en particular a otro.
Análisis componente
Coherencia (lingüística)
Distancia de Levenshtein : métrica informática para la similitud de cadenas
Diferencial semántico
Plegado semántico
Red de similitud semántica
Extracción de terminología
Word2Vec
tf-idf

Referencias [ editar ]

^ Harispe S .; Ranwez S. Janaqi S .; Montmain J. (2015). "Similitud semántica del análisis del lenguaje natural y de la ontología". Conferencias de síntesis sobre tecnologías del lenguaje humano . 8: 1 : 1–254. arXiv : 1704.05295 . doi : 10.2200 / S00639ED1V01Y201504HLT027 . S2CID 17428739 .
^ Feng Y .; Bagheri E .; Ensan F .; Jovanovic J. (2017). "El estado del arte en relación semántica: un marco para la comparación". Revisión de la ingeniería del conocimiento . 32 : 1–30. doi : 10.1017 / S0269888917000029 .
^ A. Ballatore; M. Bertolotto; DC Wilson (2014). "Una línea de base evaluativa para la relación geosemántica y la similitud". GeoInformatica . 18: 4 (4): 747–767. arXiv : 1402.3371 . Código bibliográfico : 2014arXiv1402.3371B . doi : 10.1007 / s10707-013-0197-8 . S2CID 17474023 .
↑ a b Budanitsky, Alexander; Hirst, Graeme (2001). "Distancia semántica en WordNet: una evaluación experimental orientada a la aplicación de cinco medidas" (PDF) . Taller sobre WordNet y otros recursos léxicos, Segunda Reunión del Capítulo Norteamericano de la Asociación de Lingüística Computacional . Pittsburgh.
^ Guzzi, Pietro Hiram; Mina, Marco; Cannataro, Mario; Guerra, Concettina (2012). "Análisis de similitud semántica de datos de proteínas: evaluación con características y problemas biológicos" . Briefings en Bioinformática . 13 (5): 569–585. doi : 10.1093 / bib / bbr066 . PMID 22138322 .
^ a b Benabderrahmane, Sidahmed; Smail Tabbone, Malika; Poch, Olivier; Nápoles, Amedeo; Devignes, Marie-Domonique. (2010). "IntelliGO: una nueva medida de similitud semántica basada en vectores que incluye el origen de la anotación" . BMC Bioinformática . 11 : 588. doi : 10.1186 / 1471-2105-11-588 . PMC 3098105 . PMID 21122125 .
^ Köhler, S; Schulz, MH; Krawitz, P; Bauer, S; Dolken, S; Ott, CE; Mundlos, C; Horn, D; et al. (2009). "Diagnóstico clínico en genética humana con búsquedas de similitud semántica en ontologías" . Revista Estadounidense de Genética Humana . 85 (4): 457–64. doi : 10.1016 / j.ajhg.2009.09.003 . PMC 2756558 . PMID 19800049 .
^ "ProteInOn" .
^ "CMPSim" .
^ "CESSM" .
^ Janowicz, K., Raubal, M. y Kuhn, W. (2011). "La semántica de la similitud en la recuperación de información geográfica" . Revista de ciencia de la información espacial . 2 (2): 29–57. doi : 10.5311 / josis.2011.2.3 .CS1 maint: varios nombres: lista de autores ( enlace )
^ "Servidor de similitud SIM-DL". 2007: 128–145. CiteSeerX 10.1.1.172.5544 . Cite journal requiere |journal=( ayuda )
^ "Calculadora de similitud Geo-Net-PT" .
^ "Geo-Net-PT" .
^ A. Ballatore; DC Wilson; M. Bertolotto. "Extracción de conocimiento geográfico y similitud semántica en OpenStreetMap" (PDF) . Sistemas de información y conocimiento : 61–81.
^ Kaur, I. y Hornof, AJ (2005). Una comparación de LSA, WordNet y PMI para predecir el comportamiento de los clics del usuario . Actas de la Conferencia sobre Factores Humanos en Computación, CHI 2005 . págs. 51–60. doi : 10.1145 / 1054972.1054980 . ISBN 978-1-58113-998-3. S2CID 14347026 .
^ Métodos de aprendizaje basados en similitudes para la web semántica (C. d'Amato, tesis doctoral)
^ Gracia, J. y Mena, E. (2008). "Medida de la relación semántica basada en web" (PDF) . Actas de la 9ª Conferencia Internacional sobre Ingeniería de Sistemas de Información Web (WISE '08) : 136–150.
^ Raveendranathan, P. (2005). Identificación de conjuntos de palabras relacionadas de la World Wide Web . Tesis de Maestría en Ciencias, Universidad de Minnesota Duluth.
^ Wubben, S. (2008). Uso de la estructura de enlace libre para calcular la relación semántica . En la Serie de Informes Técnicos del Grupo de Investigación ILK, nr. 08-01 de 2008.
^ Juvina, I., van Oostendorp, H., Karbor, P. y Pauw, B. (2005). Hacia el modelado de información contextual en la navegación web . En BG Bara & L. Barsalou & M. Bucciarelli (Eds.), 27ª Reunión Anual de la Cognitive Science Society, CogSci2005 (págs. 1078–1083). Austin, Tx: La Sociedad de Ciencias Cognitivas, Inc.
^ Navigli, R., Lapata, M. (2007). Medidas de conectividad de gráficos para desambiguación de sentido de palabras sin supervisión , procedimiento. de la 20ª Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI 2007), Hyderabad, India, 6 al 12 de enero de 2007, págs. 1683–1688.
^ Pirolli, P. (2005). "Análisis racionales de la búsqueda de información en la Web" . Ciencia cognitiva . 29 (3): 343–373. doi : 10.1207 / s15516709cog0000_20 . PMID 21702778 .
^ Pirolli, P. y Fu, W.-T. (2003). "SNIF-ACT: un modelo de búsqueda de información en la World Wide Web". Apuntes de conferencias en Ciencias de la Computación . Apuntes de conferencias en informática. 2702 . págs. 45–54. CiteSeerX 10.1.1.6.1506 . doi : 10.1007 / 3-540-44963-9_8 . ISBN 978-3-540-40381-4.CS1 maint: varios nombres: lista de autores ( enlace )
^ Turney, P. (2001). Explorando la Web en busca de sinónimos: PMI versus LSA en TOEFL . En L. De Raedt y P. Flach (Eds.), Actas de la Duodécima Conferencia Europea sobre Aprendizaje Automático (ECML-2001) (págs. 491–502). Friburgo, Alemania.
^ Reimers, Nils; Gurevych, Iryna (noviembre de 2019). "Sentence-BERT: incrustaciones de oraciones utilizando redes BERT siameses" . Actas de la Conferencia de 2019 sobre métodos empíricos en el procesamiento del lenguaje natural y la 9a Conferencia conjunta internacional sobre el procesamiento del lenguaje natural (EMNLP-IJCNLP) . Hong Kong, China: Asociación de Lingüística Computacional: 3982–3992. arXiv : 1908.10084 . doi : 10.18653 / v1 / D19-1410 .
^ Mueller, Jonas; Thyagarajan, Aditya (5 de marzo de 2016). "Arquitecturas recurrentes siamesas para aprender la similitud de oraciones" . Trigésima Conferencia AAAI sobre Inteligencia Artificial .
^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Russ R; Zemel, Richard; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015), Cortes, C .; Lawrence, ND; Lee, DD; Sugiyama, M. (eds.), "Skip-Thought vectors" (PDF) , Advances in Neural Information Processing Systems 28 , Curran Associates, Inc., págs. 3294-3302 , consultado el 13 de marzo de 2020
^ Pekar, Viktor; Staab, Steffen (2002). Aprendizaje de taxonomía . Actas de la 19ª conferencia internacional sobre lingüística computacional -. 1 . págs. 1-7. doi : 10.3115 / 1072228.1072318 .
^ Cheng, J; Cline, M; Martin, J; Finkelstein, D; Awad, T; Kulp, D; Siani-Rose, MA (2004). "Un algoritmo de agrupación basado en el conocimiento impulsado por Gene Ontology". Revista de estadísticas biofarmacéuticas . 14 (3): 687–700. doi : 10.1081 / BIP-200025659 . PMID 15468759 . S2CID 25224811 .
^ Wu, H; Su, Z; Mao, F; Olman, V; Xu, Y (2005). "Predicción de módulos funcionales basados en análisis comparativo del genoma y aplicación de Ontología Genética" . Investigación de ácidos nucleicos . 33 (9): 2822–37. doi : 10.1093 / nar / gki573 . PMC 1130488 . PMID 15901854 .
^ Del Pozo, Angela; Pazos, Florencio; Valencia, Alfonso (2008). "Definición de distancias funcionales sobre ontología genética" . BMC Bioinformática . 9 : 50. doi : 10.1186 / 1471-2105-9-50 . PMC 2375122 . PMID 18221506 .
^ Philip Resnik (1995). Chris S. Mellish (ed.). "Uso del contenido de la información para evaluar la similitud semántica en una taxonomía". Actas de la XIV Conferencia Conjunta Internacional sobre Inteligencia Artificial (IJCAI'95) . 1 : 448–453. arXiv : cmp-lg / 9511007 . Código Bibliográfico : 1995cmp.lg ... 11007R . CiteSeerX 10.1.1.41.6956 .
^ Dekang Lin. 1998. Una definición teórica de la información de similitud . En Actas de la Decimoquinta Conferencia Internacional sobre Aprendizaje Automático (ICML '98), Jude W. Shavlik (Ed.). Morgan Kaufmann Publishers Inc., San Francisco, CA, EE. UU., 296-304
^ Ana Gabriela Maguitman, Filippo Menczer, Heather Roinestad, Alessandro Vespignani: Detección algorítmica de similitud semántica . WWW 2005: 107-116
^ JJ Jiang y DW Conrath. Similitud semántica basada en estadísticas de corpus y taxonomía léxica . En International Conference on Research on Computational Linguistics (ROCLING X), páginas 9008+, septiembre de 1997
^ MT Pilehvar, D. Jurgens y R. Navigli. Alinear, desambiguar y caminar: un enfoque unificado para medir la similitud semántica. . Proc. de la 51ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2013), Sofía, Bulgaria, 4 al 9 de agosto de 2013, págs. 1341-1351.
^ Dong, Hai (2009). "Un modelo de medida de similitud de concepto híbrido para el entorno de ontología". En movimiento hacia sistemas de Internet significativos: talleres de OTM 2009 . Apuntes de conferencias en Ciencias de la Computación . 5872 . págs. 848–857. Código Bibliográfico : 2009LNCS.5872..848D . doi : 10.1007 / 978-3-642-05290-3_103 . ISBN 978-3-642-05289-7.
^ Dong, Hai (2011). "Un modelo de similitud semántica consciente del contexto para entornos de ontología" . Concurrencia y Computación: Práctica y Experiencia . 23 (2): 505–524. doi : 10.1002 / cpe.1652 . S2CID 412845 .
^ Landauer, TK; Dumais, ST (1997). "Una solución al problema de Platón: La teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento" (PDF) . Revisión psicológica . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . doi : 10.1037 / 0033-295x.104.2.211 .
^ Landauer, TK, Foltz, PW y Laham, D. (1998). "Introducción al análisis semántico latente" (PDF) . Procesos de discurso . 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109 . doi : 10.1080 / 01638539809545028 . CS1 maint: varios nombres: lista de autores ( enlace )
^ "Distancia de similitud de Google" .
^ J. Camacho-Collados, MT Pilehvar y R. Navigli. NASARI: un enfoque novedoso para una representación semánticamente consciente de elementos. En Proceedings of the North American Chapter of the Association of Computational Linguistics (NAACL 2015), Denver, EE. UU., Págs. 567-577, 2015
^ J. Camacho-Collados, MT Pilehvar y R. Navigli. Una representación semántica multilingüe unificada de conceptos. En Actas de la 53ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2015), Beijing, China, 27 al 29 de julio, págs. 741-751, 2015
^ Fähndrich J., Weber S., Ahrndt S. (2016) Diseño y uso de una medida de similitud semántica para la interoperabilidad entre agentes. En: Klusch M., Unland R., Shehory O., Pokahr A., Ahrndt S. (eds) Multiagent System Technologies. MATES 2016. Lecture Notes in Computer Science, vol 9872. Springer, disponible en la versión del autor
↑ C. d'Amato, S. Staab y N. Fanizzi. Sobre la influencia de las ontologías de lógica descriptiva en la similitud conceptual. Ingeniería del conocimiento: práctica y patrones, páginas 48-63, 2008 doi : 10.1007 / 978-3-540-87696-0_7
^ Rubenstein, Herbert y John B. Goodenough. Correlaciones contextuales de sinonimia . Communications of the ACM, 8 (10): 627–633, 1965.
^ Rubenstein, Herbert; Goodenough, John B. (1 de octubre de 1965). "Correlatos contextuales de sinonimia" . Comunicaciones de la ACM . 8 (10): 627–633. doi : 10.1145 / 365628.365657 . S2CID 18309234 .
^ Miller, George A .; Charles, Walter G. (1 de enero de 1991). "Correlatos contextuales de similitud semántica". Procesos cognitivos y del lenguaje . 6 (1): 1–28. doi : 10.1080 / 01690969108406936 . ISSN 0169-0965 .
^ "Situar la búsqueda en contexto". Transacciones ACM sobre sistemas de información (TOIS) . 20 : 116-131. 2002-01-01. doi : 10.1145 / 503104.503110 . S2CID 12956853 .

Fuentes [ editar ]

Cilibrasi, RL y Vitanyi, PMB (2007). "La distancia de similitud de Google". IEEE Trans. Ingeniería de datos y conocimiento . 19 (3): 370–383. arXiv : cs / 0412098 . doi : 10.1109 / TKDE.2007.48 . S2CID 59777 .
Dumais, S (2003). "Enfoques basados en datos para el acceso a la información" . Ciencia cognitiva . 27 (3): 491–524. doi : 10.1207 / s15516709cog2703_7 .
Gabrilovich, E. y Markovitch, S. (2007). Computación de la relación semántica mediante el análisis semántico explícito basado en Wikipedia , Actas de la 20a Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI), Hyderabad, India, enero de 2007.
Lee, MD, Pincombe, B. y Welsh, M. (2005). Una evaluación empírica de modelos de similitud de documentos de texto . En BG Bara & L. Barsalou & M. Bucciarelli (Eds.), 27ª Reunión Anual de la Cognitive Science Society, CogSci2005 (págs. 1254-1259). Austin, Tx: La Sociedad de Ciencias Cognitivas, Inc.
Lemaire, B. y Denhiére, G. (2004). Construcción incremental de una red asociativa a partir de un corpus . En KD Forbus & D. Gentner & T. Regier (Eds.), 26ª Reunión Anual de la Sociedad de Ciencias Cognitivas, CogSci2004. Hillsdale, Nueva Jersey: Editorial Lawrence Erlbaum.
Lindsey, R., Veksler, VD, Grintsvayg, A., Gray, WD (2007). "Los efectos de la selección de corpus en la medición de la relación semántica" (PDF) . Actas de la 8ª Conferencia Internacional sobre Modelado Cognitivo, Ann Arbor, MI .CS1 maint: varios nombres: lista de autores ( enlace )
Navigli, R., Lapata, M. (2010). "Un estudio experimental de conectividad gráfica para desambiguación de sentido de palabra no supervisada" . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas (TPAMI), 32 (4), IEEE Press, 2010, págs. 678–692.
Veksler, VD y Gray, WD (2006). "Selección de casos de prueba para evaluar medidas de distancia semántica" (PDF) . Actas de la 28ª Reunión Anual de la Sociedad de Ciencias Cognitivas, CogSci2006 .
Wong, W., Liu, W. y Bennamoun, M. (2008) Agrupación de datos sin características. En: M. Song e Y. Wu; Manual de investigación sobre tecnologías de minería de texto y web; IGI Global. ISBN 978-1-59904-990-8 (el uso de NGD y ahora para la agrupación de términos y URI)

Enlaces externos [ editar ]

Lista de literatura relacionada

Artículos de encuestas [ editar ]

Artículo de la conferencia : C. d'Amato, S. Staab, N. Fanizzi. 2008. Sobre la influencia de las ontologías de la lógica descriptiva en la similitud conceptual . In Proceedings of the 16th international conference on Knowledge Engineering: Practice and Patterns Pages 48 - 63. Acitrezza, Italy, Springer-Verlag
Artículo de revista sobre el tema más general de parentesco, que también incluye similitud: Z. Zhang, A. Gentile, F. Ciravegna. 2013. Avances recientes en los métodos de relación semántica léxica: una encuesta . Ingeniería del lenguaje natural 19 (4), 411-479, Cambridge University Press
Libro : S. Harispe, S. Ranwez, S. Janaqi, J. Montmain. 2015. Similitud semántica del análisis del lenguaje natural y la ontología , Morgan & Claypool Publishers.

[harispe2015-1] Harispe S .; Ranwez S. Janaqi S .; Montmain J. (2015). "Similitud semántica del análisis del lenguaje natural y de la ontología". Conferencias de síntesis sobre tecnologías del lenguaje humano . 8: 1 : 1–254. arXiv : 1704.05295 . doi : 10.2200 / S00639ED1V01Y201504HLT027 . S2CID 17428739 .

[Feng2017-2] Feng Y .; Bagheri E .; Ensan F .; Jovanovic J. (2017). "El estado del arte en relación semántica: un marco para la comparación". Revisión de la ingeniería del conocimiento . 32 : 1–30. doi : 10.1017 / S0269888917000029 .

[3] A. Ballatore; M. Bertolotto; DC Wilson (2014). "Una línea de base evaluativa para la relación geosemántica y la similitud". GeoInformatica . 18: 4 (4): 747–767. arXiv : 1402.3371 . Código bibliográfico : 2014arXiv1402.3371B . doi : 10.1007 / s10707-013-0197-8 . S2CID 17474023 .

[budanitsky2001-4] Budanitsky, Alexander; Hirst, Graeme (2001). "Distancia semántica en WordNet: una evaluación experimental orientada a la aplicación de cinco medidas" (PDF) . Taller sobre WordNet y otros recursos léxicos, Segunda Reunión del Capítulo Norteamericano de la Asociación de Lingüística Computacional . Pittsburgh.

[5] Guzzi, Pietro Hiram; Mina, Marco; Cannataro, Mario; Guerra, Concettina (2012). "Análisis de similitud semántica de datos de proteínas: evaluación con características y problemas biológicos" . Briefings en Bioinformática . 13 (5): 569–585. doi : 10.1093 / bib / bbr066 . PMID 22138322 .

[ReferenceA-6] Benabderrahmane, Sidahmed; Smail Tabbone, Malika; Poch, Olivier; Nápoles, Amedeo; Devignes, Marie-Domonique. (2010). "IntelliGO: una nueva medida de similitud semántica basada en vectores que incluye el origen de la anotación" . BMC Bioinformática . 11 : 588. doi : 10.1186 / 1471-2105-11-588 . PMC 3098105 . PMID 21122125 .

[7] Köhler, S; Schulz, MH; Krawitz, P; Bauer, S; Dolken, S; Ott, CE; Mundlos, C; Horn, D; et al. (2009). "Diagnóstico clínico en genética humana con búsquedas de similitud semántica en ontologías" . Revista Estadounidense de Genética Humana . 85 (4): 457–64. doi : 10.1016 / j.ajhg.2009.09.003 . PMC 2756558 . PMID 19800049 .

[8] "ProteInOn" .

[9] "CMPSim" .

[10] "CESSM" .

[11] Janowicz, K., Raubal, M. y Kuhn, W. (2011). "La semántica de la similitud en la recuperación de información geográfica" . Revista de ciencia de la información espacial . 2 (2): 29–57. doi : 10.5311 / josis.2011.2.3 .CS1 maint: varios nombres: lista de autores ( enlace )

[12] "Servidor de similitud SIM-DL". 2007: 128–145. CiteSeerX 10.1.1.172.5544 . Cite journal requiere |journal=( ayuda )

[13] "Calculadora de similitud Geo-Net-PT" .

[14] "Geo-Net-PT" .

[15] A. Ballatore; DC Wilson; M. Bertolotto. "Extracción de conocimiento geográfico y similitud semántica en OpenStreetMap" (PDF) . Sistemas de información y conocimiento : 61–81.

[16] Kaur, I. y Hornof, AJ (2005). Una comparación de LSA, WordNet y PMI para predecir el comportamiento de los clics del usuario . Actas de la Conferencia sobre Factores Humanos en Computación, CHI 2005 . págs. 51–60. doi : 10.1145 / 1054972.1054980 . ISBN 978-1-58113-998-3. S2CID 14347026 .

[17] Métodos de aprendizaje basados en similitudes para la web semántica (C. d'Amato, tesis doctoral)

[18] Gracia, J. y Mena, E. (2008). "Medida de la relación semántica basada en web" (PDF) . Actas de la 9ª Conferencia Internacional sobre Ingeniería de Sistemas de Información Web (WISE '08) : 136–150.

[19] Raveendranathan, P. (2005). Identificación de conjuntos de palabras relacionadas de la World Wide Web . Tesis de Maestría en Ciencias, Universidad de Minnesota Duluth.

[20] Wubben, S. (2008). Uso de la estructura de enlace libre para calcular la relación semántica . En la Serie de Informes Técnicos del Grupo de Investigación ILK, nr. 08-01 de 2008.

[21] Juvina, I., van Oostendorp, H., Karbor, P. y Pauw, B. (2005). Hacia el modelado de información contextual en la navegación web . En BG Bara & L. Barsalou & M. Bucciarelli (Eds.), 27ª Reunión Anual de la Cognitive Science Society, CogSci2005 (págs. 1078–1083). Austin, Tx: La Sociedad de Ciencias Cognitivas, Inc.

[22] Navigli, R., Lapata, M. (2007). Medidas de conectividad de gráficos para desambiguación de sentido de palabras sin supervisión , procedimiento. de la 20ª Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI 2007), Hyderabad, India, 6 al 12 de enero de 2007, págs. 1683–1688.

[23] Pirolli, P. (2005). "Análisis racionales de la búsqueda de información en la Web" . Ciencia cognitiva . 29 (3): 343–373. doi : 10.1207 / s15516709cog0000_20 . PMID 21702778 .

[24] Pirolli, P. y Fu, W.-T. (2003). "SNIF-ACT: un modelo de búsqueda de información en la World Wide Web". Apuntes de conferencias en Ciencias de la Computación . Apuntes de conferencias en informática. 2702 . págs. 45–54. CiteSeerX 10.1.1.6.1506 . doi : 10.1007 / 3-540-44963-9_8 . ISBN 978-3-540-40381-4.CS1 maint: varios nombres: lista de autores ( enlace )

[25] Turney, P. (2001). Explorando la Web en busca de sinónimos: PMI versus LSA en TOEFL . En L. De Raedt y P. Flach (Eds.), Actas de la Duodécima Conferencia Europea sobre Aprendizaje Automático (ECML-2001) (págs. 491–502). Friburgo, Alemania.

[26] Reimers, Nils; Gurevych, Iryna (noviembre de 2019). "Sentence-BERT: incrustaciones de oraciones utilizando redes BERT siameses" . Actas de la Conferencia de 2019 sobre métodos empíricos en el procesamiento del lenguaje natural y la 9a Conferencia conjunta internacional sobre el procesamiento del lenguaje natural (EMNLP-IJCNLP) . Hong Kong, China: Asociación de Lingüística Computacional: 3982–3992. arXiv : 1908.10084 . doi : 10.18653 / v1 / D19-1410 .

[27] Mueller, Jonas; Thyagarajan, Aditya (5 de marzo de 2016). "Arquitecturas recurrentes siamesas para aprender la similitud de oraciones" . Trigésima Conferencia AAAI sobre Inteligencia Artificial .

[28] Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Russ R; Zemel, Richard; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015), Cortes, C .; Lawrence, ND; Lee, DD; Sugiyama, M. (eds.), "Skip-Thought vectors" (PDF) , Advances in Neural Information Processing Systems 28 , Curran Associates, Inc., págs. 3294-3302 , consultado el 13 de marzo de 2020

[29] Pekar, Viktor; Staab, Steffen (2002). Aprendizaje de taxonomía . Actas de la 19ª conferencia internacional sobre lingüística computacional -. 1 . págs. 1-7. doi : 10.3115 / 1072228.1072318 .

[30] Cheng, J; Cline, M; Martin, J; Finkelstein, D; Awad, T; Kulp, D; Siani-Rose, MA (2004). "Un algoritmo de agrupación basado en el conocimiento impulsado por Gene Ontology". Revista de estadísticas biofarmacéuticas . 14 (3): 687–700. doi : 10.1081 / BIP-200025659 . PMID 15468759 . S2CID 25224811 .

[31] Wu, H; Su, Z; Mao, F; Olman, V; Xu, Y (2005). "Predicción de módulos funcionales basados en análisis comparativo del genoma y aplicación de Ontología Genética" . Investigación de ácidos nucleicos . 33 (9): 2822–37. doi : 10.1093 / nar / gki573 . PMC 1130488 . PMID 15901854 .

[32] Del Pozo, Angela; Pazos, Florencio; Valencia, Alfonso (2008). "Definición de distancias funcionales sobre ontología genética" . BMC Bioinformática . 9 : 50. doi : 10.1186 / 1471-2105-9-50 . PMC 2375122 . PMID 18221506 .

[33] Philip Resnik (1995). Chris S. Mellish (ed.). "Uso del contenido de la información para evaluar la similitud semántica en una taxonomía". Actas de la XIV Conferencia Conjunta Internacional sobre Inteligencia Artificial (IJCAI'95) . 1 : 448–453. arXiv : cmp-lg / 9511007 . Código Bibliográfico : 1995cmp.lg ... 11007R . CiteSeerX 10.1.1.41.6956 .

[34] Dekang Lin. 1998. Una definición teórica de la información de similitud . En Actas de la Decimoquinta Conferencia Internacional sobre Aprendizaje Automático (ICML '98), Jude W. Shavlik (Ed.). Morgan Kaufmann Publishers Inc., San Francisco, CA, EE. UU., 296-304

[35] Ana Gabriela Maguitman, Filippo Menczer, Heather Roinestad, Alessandro Vespignani: Detección algorítmica de similitud semántica . WWW 2005: 107-116

[36] JJ Jiang y DW Conrath. Similitud semántica basada en estadísticas de corpus y taxonomía léxica . En International Conference on Research on Computational Linguistics (ROCLING X), páginas 9008+, septiembre de 1997

[37] MT Pilehvar, D. Jurgens y R. Navigli. Alinear, desambiguar y caminar: un enfoque unificado para medir la similitud semántica. . Proc. de la 51ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2013), Sofía, Bulgaria, 4 al 9 de agosto de 2013, págs. 1341-1351.

[38] Dong, Hai (2009). "Un modelo de medida de similitud de concepto híbrido para el entorno de ontología". En movimiento hacia sistemas de Internet significativos: talleres de OTM 2009 . Apuntes de conferencias en Ciencias de la Computación . 5872 . págs. 848–857. Código Bibliográfico : 2009LNCS.5872..848D . doi : 10.1007 / 978-3-642-05290-3_103 . ISBN 978-3-642-05289-7.

[39] Dong, Hai (2011). "Un modelo de similitud semántica consciente del contexto para entornos de ontología" . Concurrencia y Computación: Práctica y Experiencia . 23 (2): 505–524. doi : 10.1002 / cpe.1652 . S2CID 412845 .

[40] Landauer, TK; Dumais, ST (1997). "Una solución al problema de Platón: La teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento" (PDF) . Revisión psicológica . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . doi : 10.1037 / 0033-295x.104.2.211 .

[41] Landauer, TK, Foltz, PW y Laham, D. (1998). "Introducción al análisis semántico latente" (PDF) . Procesos de discurso . 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109 . doi : 10.1080 / 01638539809545028 . CS1 maint: varios nombres: lista de autores ( enlace )

[42] "Distancia de similitud de Google" .

[43] J. Camacho-Collados, MT Pilehvar y R. Navigli. NASARI: un enfoque novedoso para una representación semánticamente consciente de elementos. En Proceedings of the North American Chapter of the Association of Computational Linguistics (NAACL 2015), Denver, EE. UU., Págs. 567-577, 2015

[44] J. Camacho-Collados, MT Pilehvar y R. Navigli. Una representación semántica multilingüe unificada de conceptos. En Actas de la 53ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2015), Beijing, China, 27 al 29 de julio, págs. 741-751, 2015

[45] Fähndrich J., Weber S., Ahrndt S. (2016) Diseño y uso de una medida de similitud semántica para la interoperabilidad entre agentes. En: Klusch M., Unland R., Shehory O., Pokahr A., Ahrndt S. (eds) Multiagent System Technologies. MATES 2016. Lecture Notes in Computer Science, vol 9872. Springer, disponible en la versión del autor

[46] C. d'Amato, S. Staab y N. Fanizzi. Sobre la influencia de las ontologías de lógica descriptiva en la similitud conceptual. Ingeniería del conocimiento: práctica y patrones, páginas 48-63, 2008 doi : 10.1007 / 978-3-540-87696-0_7

[47] Rubenstein, Herbert y John B. Goodenough. Correlaciones contextuales de sinonimia . Communications of the ACM, 8 (10): 627–633, 1965.

[48] Rubenstein, Herbert; Goodenough, John B. (1 de octubre de 1965). "Correlatos contextuales de sinonimia" . Comunicaciones de la ACM . 8 (10): 627–633. doi : 10.1145 / 365628.365657 . S2CID 18309234 .

[49] Miller, George A .; Charles, Walter G. (1 de enero de 1991). "Correlatos contextuales de similitud semántica". Procesos cognitivos y del lenguaje . 6 (1): 1–28. doi : 10.1080 / 01690969108406936 . ISSN 0169-0965 .

[50] "Situar la búsqueda en contexto". Transacciones ACM sobre sistemas de información (TOIS) . 20 : 116-131. 2002-01-01. doi : 10.1145 / 503104.503110 . S2CID 12956853 .

[1]

vtmiProcesamiento natural del lenguaje
Términos generales	AI completo Bolsa de palabras n-gramo Bigram Trigrama Comprensión del lenguaje natural Corpus de habla Para las palabras Corpus de texto
Análisis de texto	Extracción de colocación Minería de conceptos Procesamiento de término compuesto Resolución de correferencia Lematización Reconocimiento de entidad designada Aprendizaje de ontología Analizando Etiquetado de parte de la voz Similitud semántica Análisis de los sentimientos Derivado Extracción de terminología Fragmentación de texto Segmentación de texto Segmentación de oraciones Segmentación de palabras Vinculación textual Truecasing Desambiguación del sentido de las palabras
Resumen automático	Resumen de varios documentos Extracción de oraciones Simplificación de texto
Máquina traductora	Asistido por computadora Basado en ejemplos Basado en reglas Neural
Identificación automática y captura de datos	Reconocimiento de voz Segmentación del habla Síntesis de voz Generación de lenguaje natural Reconocimiento óptico de caracteres
Modelo de tema	Asignación de Dirichlet latente Análisis semántico latente Asignación Pachinko
Asistida por ordenador de revisión	Calificación de ensayos automatizada Concordancer Corrector gramatical Texto predictivo Corrector ortográfico Adivinación de sintaxis
Interfaz de usuario de lenguaje natural	Chatbot Ficción interactiva Respuesta a preguntas Asistente virtual Interfaz de usuario de voz