En lingüística , la ley de Heaps (también llamada ley de Herdan ) es una ley empírica que describe el número de palabras distintas en un documento (o conjunto de documentos) en función de la longitud del documento (la denominada relación tipo-token). Puede formularse como
donde V R es el número de palabras distintas en un texto de instancia de tamaño n . K y β son parámetros libres determinados empíricamente. Con los corpus de texto en inglés , normalmente K está entre 10 y 100, y β está entre 0,4 y 0,6.
La ley se atribuye con frecuencia a Harold Stanley Heaps , pero fue originalmente descubierta por Gustav Herdan ( 1960 ). [1] Bajo supuestos moderados, la ley de Herdan-Heaps es asintóticamente equivalente a la ley de Zipf con respecto a las frecuencias de palabras individuales dentro de un texto. [2] Esto es una consecuencia del hecho de que la relación tipo-símbolo (en general) de un texto homogéneo puede derivarse de la distribución de sus tipos. [3]
La ley de Heaps significa que a medida que se recopile más texto de instancia, habrá rendimientos decrecientes en términos de descubrimiento del vocabulario completo del que se extraen los distintos términos.
La ley de Heaps también se aplica a situaciones en las que el "vocabulario" es solo un conjunto de tipos distintos que son atributos de alguna colección de objetos. Por ejemplo, los objetos podrían ser personas y los tipos podrían ser el país de origen de la persona. Si las personas se seleccionan al azar (es decir, no seleccionamos según el país de origen), entonces la ley de Heaps dice que rápidamente tendremos representantes de la mayoría de los países (en proporción a su población), pero será cada vez más difícil cubrir la totalidad de la población. conjunto de países continuando con este método de muestreo.
Ver también
Referencias
Citas
- ^ Egghe (2007) : "La ley de Herdan en lingüística y la ley de Heaps en la recuperación de información son formulaciones diferentes del mismo fenómeno".
- ^ Kornai (1999) ; Baeza-Yates y Navarro (2000) ; van Leijenhorst y van der Weide (2003) .
- ↑ Milička (2009)
Fuentes
- Baeza-Yates, Ricardo; Navarro, Gonzalo (2000), "Índices de direccionamiento de bloques para la recuperación aproximada de texto", Revista de la Sociedad Estadounidense de Ciencias de la Información , 51 (1): 69–82, CiteSeerX 10.1.1.31.4832 , doi : 10.1002 / (sici) 1097 -4571 (2000) 51: 1 <69 :: aid-asi10> 3.0.co; 2-c.
- Egghe, L. (2007), "Desenredar la ley de Herdan y la ley de Heaps: argumentos matemáticos e informátricos", Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información , 58 (5): 702–709, doi : 10.1002 / asi.20524.
- Montones, Harold Stanley (1978), Recuperación de información: aspectos teóricos y computacionales , Academic Press. La ley de Heaps se propone en la Sección 7.5 (págs. 206-208).CS1 maint: posdata ( enlace )
- Herdan, Gustav (1960), Matemáticas tipo token , La Haya: Mouton.
- Kornai, Andras (1999), "Zipf's law outside the middle range", en Rogers, James (ed.), Proceedings of the Sixth Meeting on Mathematics of Language , University of Central Florida, págs. 347–356.
- Milička, Jiří (2009), "Relación de token de tipo y token de Hapax: un modelo combinatorio", Glottotheory. Revista Internacional de Lingüística Teórica , 1 (2): 99–110, doi : 10.1515 / glot-2009-0009 , S2CID 124490442.
- van Leijenhorst, D. C; van der Weide, Th. P. (2005), "A formal derivation of Heaps 'Law", Information Sciences , 170 (2–4): 263–272, doi : 10.1016 / j.ins.2004.03.006.
- Este artículo incorpora material de la ley de Heaps sobre PlanetMath , que está bajo la licencia Creative Commons Attribution / Share-Alike License .
enlaces externos
- Medios relacionados con la ley de Heaps en Wikimedia Commons