Legomenon de Hapax


En lingüística de corpus , un Hápax ( / h æ p ə k s l ɪ ɡ ɒ m ɪ n ɒ n / también / h æ p æ k s / o / h p æ k s / ; [1 ] [2] pl. Hapax legomena ; a veces abreviado como hapax , plural hapaxes) es una palabra o expresión que aparece solo una vez dentro de un contexto: ya sea en el registro escrito de un idioma completo , en las obras de un autor o en un solo texto. El término a veces se usa incorrectamente para describir una palabra que aparece en solo una de las obras de un autor, pero más de una vez en esa obra en particular. Hapax legomenon es una transliteración del griego ἅπαξ λεγόμενον , que significa "ser dicho una vez". [3]

Los términos relacionados dis legomenon , tris legomenon , y tetrakis legomenon respectivamente ( / d ɪ s / , / t r ɪ s / , / t ɛ t r ə k ɪ s / ) se refieren a dobles, triples, cuádruples o ocurrencias , pero se utilizan con mucha menos frecuencia.

Los legómenos de Hapax son bastante comunes, como predice la ley de Zipf , [4] que establece que la frecuencia de cualquier palabra en un corpus es inversamente proporcional a su rango en la tabla de frecuencias. Para grandes corpora, alrededor del 40% al 60% de las palabras son hapax legomena , y otro 10% al 15% son dis legomena . [5] Así, en el Brown Corpus of American English, aproximadamente la mitad de las 50.000 palabras distintas son hapax legomena dentro de ese corpus. [6]

Hapax legomenon se refiere a la aparición de una palabra o expresión en un cuerpo de texto, no a su origen ni a su prevalencia en el habla. Por lo tanto, difiere de una palabra nonce , que puede que nunca se registre, que tenga vigencia y que se registre ampliamente, o que aparezca varias veces en la obra que la acuña , etc.

Las hapax legomena en los textos antiguos suelen ser difíciles de descifrar, ya que es más fácil inferir el significado de múltiples contextos que de uno solo. Por ejemplo, muchos de los restantes sin descifrar los glifos mayas son hapax , y la Biblia (especialmente el hebreo ; ver ejemplos § hebreo ) hapax hapax veces plantear problemas en la traducción. Hapax legomena también plantea desafíos en el procesamiento del lenguaje natural . [7]

Algunos estudiosos consideran que Hapax legomena es útil para determinar la autoría de obras escritas. PN Harrison , en El problema de las epístolas pastorales (1921) [8] hizo popular el hapax legomena entre los eruditos bíblicos , cuando argumentó que hay considerablemente más en las tres epístolas pastorales que en otras epístolas paulinas . Argumentó que el número de hapax legomena en el corpus de un autor putativo indica su vocabulario y es característico del autor como individuo.


Gráfico de frecuencia de rango para palabras en la novela Moby-Dick . Aproximadamente el 44% del conjunto distintivo de palabras en esta novela, como "matrimonial", aparece solo una vez, y también lo son hapax legomena (rojo). Alrededor del 17%, como "destreza", aparecen dos veces (los llamados dis legomena , en azul). La ley de Zipf predice que las palabras en esta gráfica deben aproximarse a una línea recta con pendiente -1.
Workman'sPaulineHapaxes.svg
Workman'sShakespearePlays.svg
La palabra " honorificabilitudinitatibus " como se encuentra en la primera edición de la obra de William Shakespeare Love 's Labour's Lost
Muspilli línea 57: "dar nimac denne mak andremo helfan uora demo muspille" ( Biblioteca Estatal de Baviera Clm 14098, f. 121r)