En lingüística de corpus , una colocación es una serie de palabras o términos que coexisten con más frecuencia de lo que cabría esperar por casualidad. En fraseología , la colocación es un subtipo de fraseme . Un ejemplo de colocación fraseológica, según lo propuesto por Michael Halliday , [1] es la expresión té fuerte . Si bien el mismo significado podría ser transmitido por el té poderoso aproximadamente equivalente , esta expresión es considerada excesiva e incómoda por los angloparlantes. Por el contrario, una expresión correspondiente en tecnología, computadora poderosa,se prefiere a una computadora fuerte . Las colocaciones fraseológicas no deben confundirse con modismos , donde el significado de un idioma se deriva de su convención como un sustituto de otra cosa, mientras que la colocación es una mera composición popular.
Hay alrededor de seis tipos principales de colocaciones: adjetivo + sustantivo, sustantivo + sustantivo (como sustantivos colectivos ), verbo + sustantivo, adverbio + adjetivo, verbos + frase preposicional ( verbos compuestos ) y verbo + adverbio.
La extracción de colocaciones es una técnica computacional que busca colocaciones en un documento o corpus, utilizando varios elementos de lingüística computacional que se asemejan a la minería de datos .
Definición ampliada
Las colocaciones son expresiones parcial o totalmente fijas que se establecen mediante el uso repetido dependiente del contexto. Términos como "claro como el cristal", "mandos intermedios", "familia nuclear" y "cirugía cosmética" son ejemplos de pares de palabras colocadas.
Las colocaciones pueden estar en una relación sintáctica (como verbo-objeto : 'hacer' y 'decisión'), relación léxica (como antonimia ), o pueden estar en una relación no definida lingüísticamente. El conocimiento de las colocaciones es vital para el uso competente de un idioma: una oración gramaticalmente correcta se destacará como incómoda si se violan las preferencias de colocación. Esto hace que la coubicación sea un área interesante para la enseñanza de idiomas.
Los lingüistas de corpus especifican una palabra clave en contexto ( KWIC ) e identifican las palabras que los rodean inmediatamente. Esto da una idea de la forma en que se utilizan las palabras.
El procesamiento de las colocaciones involucra una serie de parámetros, el más importante de los cuales es la medida de asociación , que evalúa si la co-ocurrencia es puramente casual o estadísticamente significativa . Debido a la naturaleza no aleatoria del lenguaje, la mayoría de las colocaciones se clasifican como significativas y las puntuaciones de asociación se utilizan simplemente para clasificar los resultados. Las medidas de asociación comúnmente utilizadas incluyen información mutua , puntajes t y log-verosimilitud . [2] [3]
En lugar de seleccionar una única definición, Gledhill [4] propone que la colocación implica al menos tres perspectivas diferentes: (i) co-ocurrencia, una vista estadística, que ve la colocación como la aparición recurrente en un texto de un nodo y sus colocaciones, [ 5] [6] [7] (ii) construcción, que ve la colocación como una correlación entre un lexema y un patrón léxico-gramatical, [8] o como una relación entre una base y sus socios colocativos [9] y (iii ) expresión, una visión pragmática de la colocación como una unidad de expresión convencional, independientemente de la forma. [10] [11] Estas diferentes perspectivas contrastan con la forma habitual de presentar la colocación en los estudios fraseológicos. Hablando tradicionalmente, la colocación se explica en términos de las tres perspectivas a la vez, en un continuo:
- 'Combinación libre' ↔ 'Colocación enlazada' ↔ 'Idioma congelado'
En diccionarios
En 1933, el segundo informe provisional de Harold Palmer sobre colocaciones en inglés destacó la importancia de la colocación como clave para producir un lenguaje que suene natural, para cualquiera que esté aprendiendo un idioma extranjero . [12] Así, desde la década de 1940 en adelante, la información sobre combinaciones de palabras recurrentes se convirtió en una característica estándar de los diccionarios de estudiantes monolingües . A medida que estos diccionarios se volvieron "menos centrados en palabras y más centrados en frases", [13] se prestó más atención a la colocación. Esta tendencia fue apoyada, desde principios del siglo XXI, por la disponibilidad de grandes corpus de texto y software inteligente de consulta de corpus , lo que hizo posible proporcionar una descripción más sistemática de la colocación en diccionarios. Con estas herramientas, diccionarios como el Macmillan English Dictionary y el Longman Dictionary of Contemporary English incluían recuadros o paneles con listas de colocaciones frecuentes. [14]
También hay una serie de diccionarios especializados dedicados a describir las colocaciones frecuentes en un idioma. [15] Estos incluyen (para español) Redes: Diccionario combinatorio del español contemporaneo (2004), (para francés) Le Robert: Dictionnaire des combinaisons de mots (2007) y (para inglés) el Diccionario LTP de colocaciones seleccionadas (1997) y el Diccionario de Colocaciones de Macmillan (2010). [dieciséis]
Colocación estadísticamente significativa
La prueba t de Student se puede utilizar para determinar si la ocurrencia de una colocación en un corpus es estadísticamente significativa. [17] Para un bigrama , dejar ser la probabilidad incondicional de ocurrencia de en un corpus con tamaño , y deja ser la probabilidad incondicional de ocurrencia de en el corpus. Luego, la puntuación t para el bigrama se calcula como:
dónde es la media muestral de la ocurrencia de , es el número de apariciones de , es la probabilidad de bajo la hipótesis nula de que y aparecer de forma independiente en el texto, y es la varianza de la muestra. Con una gran, la prueba t es equivalente a una prueba z .
Ver también
- Colocaciones en inglés
- Acuerdo (lingüística)
- Cliché
- Restricción de colocación
- Análisis colostruccional
- Sustantivo compuesto, adjetivo y verbo
- Gobierno (lingüística)
- Isocolon
- Elemento léxico
- N-gramo
- Phrasal verbo
- Fraseología
- Fraseme
- Gemelos siameses (lingüística)
- Motor de dibujo
- Frase estadísticamente improbable
- Bosquejo de la palabra
Referencias
- ^ Halliday, MAK, 'Lexis como nivel lingüístico', Journal of Linguistics 2 (1) 1966: 57–67
- ^ Dunning, Ted (1993): " Métodos precisos para las estadísticas de sorpresa y coincidencia ". Lingüística computacional 19, 1 (marzo de 1993), 61–74.
- ↑ Dunning, Ted (21 de marzo de 2008). "Sorpresa y coincidencia" . blogspot.com . Consultado el 9 de abril de 2012 .
- ^ Gledhill C. (2000): Colocaciones en escritura científica , Narr, Tübingen
- ↑ Firth JR (1957): Papers in Linguistics 1934-1951. Oxford: Prensa de la Universidad de Oxford.
- ^ Sinclair J. (1996): "La búsqueda de unidades de significado", en Textus, IX, 75-106.
- ^ Smadja F. A & McKeown, KR (1990): " Extracción y representación automática de colocaciones para la generación de idiomas ", Actas de ACL'90, 252-259, Pittsburgh, Pennsylvania.
- ^ Hunston S. & Francis G. (2000): Gramática de patrones: un enfoque basado en corpus de la gramática léxica del inglés , Amsterdam, John Benjamins
- ^ Hausmann FJ (1989): Le dictionnaire de colocaciones. En Hausmann FJ, Reichmann O., Wiegand HE, Zgusta L. (eds), Wörterbücher: ein internationales Handbuch zur Lexikographie. Diccionarios. Dictionarios. Berlín / Nueva York: De Gruyter. 1010–1019.
- ^ Moon R. (1998): Expresiones y modismos fijos, un enfoque basado en corpus. Oxford, Oxford University Press.
- ^ Frath P. & Gledhill C. (2005): "¿ Clústeres de cría libre o trozos congelados? Referencia como criterio de definición de unidades lingüísticas ", en Recherches anglaises et Nord-américaines, vol. 38: 25–43
- ^ Cowie, AP, diccionarios de inglés para estudiantes extranjeros, Oxford University Press 1999: 54–56
- ^ Bejoint, H., La lexicografía del inglés, Oxford University Press 2010: 318
- ^ "MED Second Edition - Características principales - Macmillan" . macmillandictionaries.com .
- ^ Herbst, T. y Klotz, M. 'Diccionarios sintagmáticos y fraseológicos' en Cowie, AP (Ed.) La historia de Oxford de la lexicografía inglesa, 2009: parte 2, 234–243
- ^ "Diccionario de colocación Macmillan - Cómo se escribió - Macmillan" . macmillandictionaries.com .
- ^ Manning, Chris; Schütze, Hinrich (1999). Fundamentos del procesamiento estadístico del lenguaje natural . Cambridge, MA: MIT Press. pp. 163 -166. ISBN 0262133601.
enlaces externos
- Diccionario de Colocación Ózdica
- Un pequeño sistema que almacena colocaciones en español (Igor A. Bolshakov y Sabino Miranda-Jiménez)
- Caracterización morfológica de colocaciones y relaciones semánticas en español (Sabino Miranda-Jiménez & Igor A. Bolshakov)
- Ejemplo de colocaciones para la palabra "Cirugía"