Un léxico semántico es un diccionario digital de palabras etiquetadas con clases semánticas para que se puedan establecer asociaciones entre palabras que no se han encontrado previamente. [1] Los léxicos semánticos se basan en redes semánticas , que representan las relaciones semánticas entre palabras. La diferencia entre un léxico semántico y una red semántica es que un léxico semántico tiene definiciones para cada palabra, o una "glosa". [2]
Estructura
Los léxicos semánticos se componen de entradas léxicas. Estas entradas no son ortográficas, sino semánticas, eliminando cuestiones de homonimia y polisemia. Estas entradas léxicas están interconectadas con relaciones semánticas , como hiperonimia, hiponimia, meronimia o troponimia. Las entradas sinónimas se agrupan en lo que Princeton WordNet llama " synsets " [2] La mayoría de los léxicos semánticos se componen de cuatro "subredes" diferentes: [2] sustantivos, verbos, adjetivos y adverbios, aunque algunos investigadores han tomado medidas para agregar un "nodo artificial" que interconecte las subredes. [3]
Sustantivos
Los sustantivos se ordenan en una taxonomía , estructurada en una jerarquía donde el sustantivo más amplio y abarcador se ubica en la parte superior, como "cosa", y los sustantivos se vuelven cada vez más específicos cuanto más se alejan de la parte superior. El sustantivo superior en un léxico semántico se llama principiante único . [4] Los sustantivos más específicos (aquellos que no tienen subordinados), son nodos terminales . [3]
Los léxicos semánticos también distinguen entre tipos, donde un tipo de algo tiene características de algo como un Rhodesian Ridgeback que es un tipo de perro, e instancias, donde algo es un ejemplo de dicho algo, como Dave Grohl es un ejemplo de un músico. . Las instancias son siempre nodos terminales porque son solitarias y no tienen otras palabras o categorías ontológicas que les pertenezcan. [2]
Los léxicos semánticos también abordan la meronimia , [5] que es una relación de “parte a todo”, como que las teclas son parte de una computadora portátil. Los atributos necesarios que definen una entrada específica también están necesariamente presentes en el hipónimo de esa entrada . Entonces, si una computadora tiene llaves , y una computadora portátil es un tipo de computadora , entonces una computadora portátil debe tener llaves . Sin embargo, hay muchos casos en los que esta distinción puede volverse vaga. Un buen ejemplo de ello es la silla item . La mayoría definiría una silla como tener patas y un asiento (como en la parte en la que uno se sienta). Sin embargo, hay algunas sillas muy “artísticas” y “modernas” en boutiques caras que no tienen patas. Los pufs tampoco tienen patas, pero pocos dirían que no son sillas. Preguntas como esta son las preguntas centrales que impulsan la investigación y el trabajo en los campos de la taxonomía y la ontología .
Verbos
Los sintetizadores de verbos están organizados de manera muy similar a sus contrapartes de sustantivos: los verbos más generales y abarcadores se encuentran cerca de la parte superior de la jerarquía, mientras que los tropónimos (verbos que describen una forma más específica de hacer algo) se agrupan debajo. La especificidad del verbo se mueve a lo largo de un vector , y los verbos se vuelven cada vez más específicos en referencia a una determinada cualidad. [2] Por ejemplo. El conjunto "caminar / correr / correr" se vuelve más específico en términos de velocidad, y "disgusto / odio / aborrecimiento" se vuelve más específico en términos de la intensidad de la emoción.
Las agrupaciones y separaciones ontológicas de los verbos son mucho más discutibles que sus contrapartes sustantivas. Está ampliamente aceptado que un perro es un tipo de animal y que un taburete es un tipo de silla , pero se puede argumentar que el aborrecimiento está en el mismo plano emocional que el odio (que son sinónimos y no super / subordinados). También se puede argumentar que amar y adorar son sinónimos, o que uno es más específico que el otro. Por tanto, las relaciones entre verbos no son tan acordadas como las de los sustantivos.
Otro atributo de las relaciones de synset de verbos es que también se ordenan en pares de verbos. En estos pares, un verbo necesariamente implica al otro en la forma en que masacre implica matar , y saber implica creer . [2] Estos pares de verbos pueden ser tropónimos y sus superordinados, como es el caso del primer ejemplo, o pueden estar en categorías ontológicas completamente diferentes, como en el caso del segundo ejemplo.
Adjetivos
Las relaciones de synset de adjetivos son muy similares a las relaciones de synset de verbos. No son tan claramente jerárquicas como las relaciones de synset de sustantivos, y tienen menos niveles y más nodos terminales. Sin embargo, generalmente hay menos nodos terminales por categoría ontológica en las relaciones de synset de adjetivos que en los verbos. Los adjetivos en los léxicos semánticos también se organizan en pares de palabras, con la diferencia de que sus pares de palabras son antónimos en lugar de implicaciones . Los adjetivos polares más genéricos, como frío y calor , o feliz y triste, están emparejados. Luego, otros adjetivos que son semánticamente similares se vinculan a cada una de estas palabras. El calor está relacionado con el calor , el calor , el chisporroteo y el sofocante , mientras que el frío está relacionado con el frío , el frío , el congelamiento y el picante . Estos adjetivos semánticamente similares se consideran antónimos indirectos [2] del adjetivo polar opuesto (es decir, nippy es un antónimo indirecto de caliente ). Los adjetivos que se derivan de un verbo o un sustantivo también están directamente vinculados a dicho verbo o sustantivo a través de subredes. Por ejemplo, agradable está vinculado a los adjetivos de similitud semántica agradable y agradable , así como a su verbo de origen, disfrutar .
Adverbios
Hay muy pocos adverbios contabilizados en léxicos semánticos. Esto se debe a que la mayoría de los adverbios se toman directamente de sus contrapartes de adjetivos, tanto en el significado como en la forma, y se cambian solo morfológicamente (es decir, felizmente se deriva de feliz y afortunadamente se deriva de suerte , que se deriva de suerte ). Los únicos adverbios que se explican específicamente son los que no tienen estas conexiones, como realmente , sobre todo y apenas . [2]
Desafíos a los que se enfrentan los léxicos semánticos
Los efectos del proyecto Princeton WordNet se extienden mucho más allá del inglés, aunque la mayoría de las investigaciones en el campo giran en torno al idioma inglés. La creación de un léxico semántico para otros lenguajes ha demostrado ser muy útil para las aplicaciones de procesamiento del lenguaje natural . Uno de los principales enfoques de la investigación en léxicos semánticos es vincular léxicos de diferentes idiomas para ayudar en la traducción automática . El enfoque más común es intentar crear una ontología compartida que sirva como una especie de "intermediario" entre léxicos semánticos de dos lenguajes diferentes. [6] Este es un problema extremadamente desafiante y aún sin resolver en el campo de la traducción automática. Un problema surge del hecho de que no hay dos idiomas que se traduzcan palabra por palabra. Es decir, cada idioma tiene algún tipo de diferencia estructural o sintáctica de todos los demás. Además, los idiomas a menudo tienen palabras que no se traducen fácilmente a otros idiomas, y ciertamente no con una coincidencia exacta de palabra a palabra. Se han hecho propuestas para crear un marco establecido para wordnets. Las investigaciones han demostrado que todos los lenguajes humanos conocidos tienen algún tipo de concepto que se asemeja a la sinonimia , la hiponimia , la meronimia y la antonimia . Sin embargo, todas las ideas propuestas hasta ahora han sido criticadas por utilizar un patrón que funciona mejor para el inglés y menos para otros idiomas. [6]
Otro obstáculo en el campo es que no existen pautas sólidas para el marco y los contenidos del léxico semántico. Cada proyecto de léxico en cada idioma diferente ha tenido un enfoque levemente (o no tan levemente) diferente a su wordnet. Ni siquiera existe una definición acordada de lo que es una "palabra". Ortográficamente , se definen como una cadena de letras con espacios a cada lado, pero semánticamente se convierte en un tema muy debatido. Por ejemplo, aunque no es difícil definir perro o vara como palabras, ¿qué pasa con perro guardián o pararrayos ? Los dos últimos ejemplos se considerarían palabras ortográficamente separadas, aunque semánticamente forman un concepto: uno es un tipo de perro y otro es un tipo de vara. Además de estas confusiones, las redes de palabras también son idiosincrásicas , ya que no etiquetan artículos de manera consistente. Son redundantes, ya que a menudo tienen varias palabras asignadas a cada significado (synsets). También son abiertos, ya que a menudo se enfocan y se extienden a la terminología y al vocabulario específico del dominio. [6]
Otros nombres
- wordnet
- léxico computacional
Lista de léxicos semánticos
- WordNet
- EuroWordNet
- Repositorio central multilingüe
- Wordnet global
- MindNet
Ver también
- Gellish
- Léxico
- Red semántica
Referencias
- ^ Theng, Yin-Leng (2009). Manual de investigación sobre bibliotecas digitales: diseño, desarrollo e impacto . University of Michigan: Information Science Reference. ISBN 9781599048796.
- ^ a b c d e f g h "Acerca de WordNet" .
- ^ a b Lemnitzer, L. "Enriquecimiento de GermaNet: un estudio de caso de adquisición léxica". Seminario für Sprachwissenschaft, Universitat Tubingen .
- ^ Boyd-Graber, J. (2006). "Adición de conexiones densas y ponderadas a WordNet". Actas de la Tercera Conferencia Internacional Wordnet .
- ^ Hinrichs, E. (diciembre de 2012). "Uso de relaciones parte-todo para la deducción automática de relaciones compuesto-internacionales en GermaNet". Revista Internacional de Web Semántica y Sistemas de Información . 3 .
- ^ a b c Fellbaum, C. (mayo de 2012). "Desafíos para una Wordnet multilingüe". Recursos lingüísticos y evaluación . 46 : 313–326.