Un bigrama o digram es una secuencia de dos elementos adyacentes de una cadena de símbolos , que suelen ser letras, sílabas o palabras. Un bigrama es un n -grama para n = 2. La distribución de frecuencia de cada bigrama en una cadena se usa comúnmente para el análisis estadístico simple de texto en muchas aplicaciones, incluida la lingüística computacional, la criptografía, el reconocimiento de voz, etc.
Los bigramas gappy o saltarse bigramas son pares de palabras que permiten espacios (tal vez evitando conectar palabras, o permitiendo alguna simulación de dependencias, como en una gramática de dependencia ).
Los bigramas de palabras principales son bigramas entrecortados con una relación de dependencia explícita.
Detalles
Los bigrams ayudan a proporcionar la probabilidad condicional de un token dado el token anterior, cuando se aplica la relación de probabilidad condicional :
Es decir, la probabilidad de una ficha dado el token anterior es igual a la probabilidad de su bigrama, o la co-ocurrencia de los dos tokens , dividido por la probabilidad del token anterior.
Aplicaciones
Los bigramas se utilizan en los modelos de lenguaje más exitosos para el reconocimiento de voz . [1] Son un caso especial de N-gram .
Los ataques de frecuencia de bigram se pueden utilizar en criptografía para resolver criptogramas . Ver análisis de frecuencia .
La frecuencia de bigrama es un enfoque para la identificación estadística del lenguaje .
Algunas actividades en logística o lingüística recreativa involucran bigramas. Estos incluyen intentos de encontrar palabras en inglés que comiencen con todos los bigramas posibles, [2] o palabras que contengan una serie de bigramas repetidos, como logogogo . [3]
Frecuencia de bigram en el idioma inglés
La frecuencia de los bigramas de letras más comunes en un pequeño corpus en inglés es: [4]
th 1.52 en 0.55 ng 0.18él 1.28 ed 0.53 de 0.16en 0,94 a 0,52 al 0,09er 0.94 it 0.50 de 0.09an 0.82 ou 0.50 se 0.08re 0,68 ea 0,47 le 0,08nd 0.63 hola 0.46 sa 0.06en 0.59 es 0.46 si 0.05en 0.57 o 0.43 ar 0.04nt 0,56 ti 0,34 ve 0,04ha 0,56 como 0,33 ra 0,04es 0.56 te 0.27 ld 0.02st 0.55 et 0.19 ur 0.02
Se encuentran disponibles frecuencias completas de bigramas para un corpus más grande. [5] [6]
Ver también
Referencias
- ↑ Collins, Michael John (24 de junio de 1996). "Un nuevo analizador estadístico basado en dependencias léxicas bigramas" . Actas de la 34ª reunión anual de la Asociación de Lingüística Computacional - . Asociación de Lingüística Computacional. págs. 184-191. arXiv : cmp-lg / 9605012 . doi : 10,3115 / 981863,981888 . S2CID 12615602 . Consultado el 9 de octubre de 2018 .
- ^ Cohen, Philip M. (1975). "Bigrams iniciales" . Maneras de palabras . 8 (2) . Consultado el 11 de septiembre de 2016 .
- ^ Corbin, Kyle (1989). "Bigrams dobles, triples y cuádruples" . Maneras de palabras . 22 (3) . Consultado el 11 de septiembre de 2016 .
- ^ Proyecto de Cornell Math Explorer: cifrados de sustitución
- ^ Jones, Michael N; DJK Mewhort (agosto de 2004). "Recuentos de frecuencia de letras sensibles a mayúsculas y minúsculas de corpus en inglés a gran escala" . Métodos, instrumentos y computadoras de investigación del comportamiento . 36 (3): 388–396. doi : 10.3758 / bf03195586 . ISSN 0743-3808 . PMID 15641428 .
- ^ "Recuentos de frecuencia de letras en inglés: Mayzner revisitado o ETAOIN SRHLDCU" . norvig.com . Consultado el 28 de octubre de 2019 .