Ley de Zipf

La ley de Zipf ( / z ɪ f / , no / t s ɪ p f / como en alemán) es una ley empírica formulada usando estadística matemática que se refiere al hecho de que para muchos tipos de datos estudiados en las ciencias físicas y sociales , el rango -La distribución de frecuencia es una relación inversa. La distribución de Zipfian pertenece a una familia de distribuciones de probabilidad discretas relacionadas con la ley de potencias . Está relacionado con la distribución zeta , pero no es idéntico.

Ley de Zipf
Función de probabilidad Zipf PMF para N = 10 en una escala logarítmica. El eje horizontal es el índice k . (Tenga en cuenta que la función solo se define en valores enteros de k . Las líneas de conexión no indican continuidad).
Función de distribución acumulativa Zipf CDF para N = 10. El eje horizontal es el índice k . (Tenga en cuenta que la función solo se define en valores enteros de k . Las líneas de conexión no indican continuidad).
Parámetros	${\ Displaystyle s \ geq 0 \,}$ ( real ) ${\ Displaystyle N \ in \ {1,2,3 \ ldots \}}$ ( entero )
Apoyo	${\ Displaystyle k \ in \ {1,2, \ ldots, N \}}$
PMF	${\ Displaystyle {\ frac {1 / k ^ {s}} {H_ {N, s}}}}$ donde H _{N, s} es el N- ésimo número armónico generalizado
CDF	${\ Displaystyle {\ frac {H_ {k, s}} {H_ {N, s}}}}$
Significar	${\ Displaystyle {\ frac {H_ {N, s-1}} {H_ {N, s}}}}$
Modo	${\ Displaystyle 1 \,}$
Diferencia	${\ Displaystyle {\ frac {H_ {N, s-2}} {H_ {N, s}}} - {\ frac {H_ {N, s-1} ^ {2}} {H_ {N, s} ^ {2}}}}$
Entropía	${\ Displaystyle {\ frac {s} {H_ {N, s}}} \ sum \ limits _ {k = 1} ^ {N} {\ frac {\ ln (k)} {k ^ {s}}} + \ ln (H_ {N, s})}$
MGF	${\ Displaystyle {\ frac {1} {H_ {N, s}}} \ sum \ limits _ {n = 1} ^ {N} {\ frac {e ^ {nt}} {n ^ {s}}} }$
CF	${\ Displaystyle {\ frac {1} {H_ {N, s}}} \ sum \ limits _ {n = 1} ^ {N} {\ frac {e ^ {int}} {n ^ {s}}} }$

La ley de Zipf se formuló originalmente en términos de lingüística cuantitativa , afirmando que dado cierto corpus de expresiones del lenguaje natural , la frecuencia de cualquier palabra es inversamente proporcional a su rango en la tabla de frecuencias . Por tanto, la palabra más frecuente aparecerá aproximadamente el doble que la segunda palabra más frecuente, tres veces más frecuente que la tercera palabra más frecuente, etc. Por ejemplo, en el texto Brown Corpus of American English, la palabra " the " es la palabra que aparece con más frecuencia, y por sí sola representa casi el 7% de todas las apariciones de palabras (69,971 de un poco más de 1 millón). Fiel a la ley de Zipf, la palabra en segundo lugar " de " representa un poco más del 3,5% de las palabras (36,411 ocurrencias), seguida de " y " (28,852). Solo se necesitan 135 elementos de vocabulario para representar la mitad del Brown Corpus. ^[1]

La ley lleva el nombre del lingüista estadounidense George Kingsley Zipf (1902-1950), quien la popularizó y trató de explicarla (Zipf 1935, 1949), aunque no afirmó haberla originado. ^[2] El taquígrafo francés Jean-Baptiste Estoup (1868-1950) parece haber notado la regularidad antes de Zipf. ^[3]^{[ no verificado en el cuerpo ]} También fue observado en 1913 por el físico alemán Felix Auerbach (1856-1933). ^[4]

La ley es similar en concepto, aunque no idéntica en distribución, a la ley de Benford .

Otros conjuntos de datos

La misma relación ocurre en muchos otros rankings de sistemas creados por humanos, ^[5] como los rangos de expresiones matemáticas ^[6] o rangos de notas en la música, ^[7] e incluso en entornos no controlados, como los rangos de población de ciudades en varios países, tamaños de corporaciones, clasificaciones de ingresos, rangos de cantidad de personas que miran el mismo canal de televisión, ^[8] y así sucesivamente. La aparición de la distribución en las clasificaciones de ciudades por población fue notada por primera vez por Felix Auerbach en 1913. ^[4] Empíricamente, se puede probar un conjunto de datos para ver si la ley de Zipf se aplica al verificar la bondad de ajuste de una distribución empírica a la hipótesis distribución de la ley de potencia con una prueba de Kolmogorov-Smirnov , y luego comparar la razón de verosimilitud (log) de la distribución de la ley de potencia con distribuciones alternativas como una distribución exponencial o distribución logarítmica normal. ^[9]

Cuando se verifica la ley de Zipf para las ciudades, se ha encontrado un mejor ajuste con exponente s = 1.07; es decir, el n -ésimo asentamiento más grande es ${\ Displaystyle {\ frac {1} {n ^ {1.07}}}}$ el tamaño del asentamiento más grande, en otras palabras: ${\ Displaystyle \ mathrm {settl} _ {\ mathrm {rango}} = \ mathrm {settl} _ {1} \ cdot {\ frac {1} {\ mathrm {rango} ^ {1.07}}}}$ como ${\ Displaystyle x_ {n} = x_ {1} \ cdot {\ frac {1} {n ^ {s}}}}$ según la ley de Zipf.

Revisión teórica

La ley de Zipf se observa más fácilmente trazando los datos en un gráfico log-log , con los ejes log (orden de clasificación) y log (frecuencia). Por ejemplo, la palabra "el" (como se describe arriba) aparecería en x = log (1), y = log (69971). También es posible trazar el rango recíproco contra la frecuencia o la frecuencia recíproca o el intervalo entre palabras contra el rango. ^[2] Los datos se ajustan a la ley de Zipf en la medida en que la gráfica sea lineal .

Formalmente, dejemos:

N es el número de elementos;
k sea su rango;
s el valor del exponente que caracteriza la distribución.

Luego, la ley de Zipf predice que de una población de N elementos, la frecuencia normalizada del elemento de rango k , f ( k ; s , N ) es:

{\ Displaystyle f (k; s, N) = {\ frac {1 / k ^ {s}} {\ sum \ limits _ {n = 1} ^ {N} (1 / n ^ {s})}} }

La ley de Zipf se cumple si el número de elementos con una frecuencia dada es una variable aleatoria con distribución de la ley de potencia ${\ displaystyle p (f) = \ alpha f ^ {- 1-1 / s}.}$ ^[10]

Se ha afirmado que esta representación de la ley de Zipf es más adecuada para las pruebas estadísticas, y de esta manera se ha analizado en más de 30.000 textos en inglés. Las pruebas de bondad de ajuste arrojan que solo alrededor del 15% de los textos son estadísticamente compatibles con esta forma de ley de Zipf. Ligeras variaciones en la definición de la ley de Zipf pueden aumentar este porcentaje hasta cerca del 50%. ^[11]

En el ejemplo de la frecuencia de palabras en el idioma inglés, N es el número de palabras en el idioma inglés y, si usamos la versión clásica de la ley de Zipf, el exponente s es 1. f ( k ; s , N ) será entonces sea la fracción del tiempo que aparece la k- ésima palabra más común.

La ley también puede estar escrita:

{\ Displaystyle f (k; s, N) = {\ frac {1} {k ^ {s} H_ {N, s}}}}

donde H _{N, s} es el N- ésimo número armónico generalizado .

El caso más simple de la ley de Zipf es un "1/F"Función. Dado un conjunto de frecuencias distribuidas de Zipfian, ordenadas de la más común a la menos común, la segunda frecuencia más común ocurrirá la mitad de la frecuencia que la primera, la tercera frecuencia más común ocurrirá 1/3la frecuencia que el primero, y el n º ocurrirá frecuencia más común 1/nortetan a menudo como el primero. Sin embargo, esto no puede ser exacto, porque los elementos deben aparecer un número entero de veces; no puede haber 2,5 apariciones de una palabra. Sin embargo, en rangos bastante amplios y con una aproximación bastante buena, muchos fenómenos naturales obedecen a la ley de Zipf.

En los lenguajes humanos, las frecuencias de las palabras tienen una distribución de colas muy gruesas y, por lo tanto, pueden modelarse razonablemente bien mediante una distribución Zipf con una s cercana a 1.

Siempre que el exponente s exceda 1, es posible que dicha ley se mantenga con infinitas palabras, ya que si s > 1 entonces

{\ Displaystyle \ zeta (s) = \ sum _ {n = 1} ^ {\ infty} {\ frac {1} {n ^ {s}}} <\ infty. \!}

donde ζ es la función zeta de Riemann .

Explicación estadística

Una gráfica del rango versus la frecuencia de los primeros 10 millones de palabras en 30 wikipedias (volcados de octubre de 2015) en una escala logarítmica .

Aunque la ley de Zipf es válida para todos los idiomas, incluso los no naturales como el esperanto , ^[12] la razón aún no se comprende bien. ^[13] Sin embargo, puede explicarse parcialmente por el análisis estadístico de textos generados aleatoriamente. Wentian Li ha demostrado que en un documento en el que cada carácter ha sido elegido al azar de una distribución uniforme de todas las letras (más un carácter de espacio), las "palabras" con diferentes longitudes siguen la macrotendencia de la ley de Zipf (la más probable las palabras son las más cortas con igual probabilidad). ^[14] Vitold Belevitch , en un artículo titulado Sobre las leyes estadísticas de la distribución lingüística , ofrece una derivación matemática. Tomó una gran clase de distribuciones estadísticas de buen comportamiento (no solo la distribución normal ) y las expresó en términos de rango. Luego amplió cada expresión en una serie de Taylor . En todos los casos, Belevitch obtuvo el notable resultado de que un truncamiento de primer orden de la serie dio como resultado la ley de Zipf. Además, un truncamiento de segundo orden de la serie de Taylor resultó en la ley de Mandelbrot . ^[15]^[16]

El principio del mínimo esfuerzo es otra posible explicación: el propio Zipf propuso que ni los hablantes ni los oyentes que usan un idioma dado quieren trabajar más de lo necesario para alcanzar la comprensión, y el proceso que da como resultado una distribución aproximadamente igual del esfuerzo conduce a la distribución de Zipf observada. . ^[17]^[18]

De manera similar, se ha demostrado que el apego preferencial (intuitivamente, "los ricos se hacen más ricos" o "el éxito genera éxito") que da como resultado la distribución Yule-Simon se ajusta a la frecuencia de palabras versus el rango en el idioma ^[19] y la población versus el rango de la ciudad ^[20] mejor que la ley de Zipf. Originalmente fue derivado para explicar población versus rango en especies por Yule, y aplicado a ciudades por Simon.

Explicación matemática

Los modelos Atlas son sistemas de procesos de difusión de valor positivo intercambiables con parámetros de deriva y varianza que dependen únicamente del rango del proceso. Se ha demostrado matemáticamente que la ley de Zipf es válida para los modelos Atlas que satisfacen ciertas condiciones de regularidad natural. ^{[21] Los} modelos Atlas se pueden utilizar para representar sistemas empíricos de datos multivariados dependientes del tiempo, incluyendo, por ejemplo, la frecuencia de palabras en un idioma escrito, la población de ciudades y el tamaño de las empresas. Un modelo Atlas que representa un sistema empírico tendrá la misma distribución estacionaria que el sistema empírico, por lo que si el modelo Atlas sigue la ley de Zipf, el sistema también seguirá la ley de Zipf. Dado que los modelos Atlas que satisfacen las condiciones de regularidad natural siguen la ley de Zipf, esto explica su universalidad. ^[22]

En la figura anterior de los 10 millones de palabras de Wikipedia, las gráficas log-log no son precisamente líneas rectas, sino curvas ligeramente cóncavas con una tangente de pendiente -1 en algún punto a lo largo de la curva. Dichas distribuciones generalmente se conocen como distribuciones cuasi-Zipfianas , y la mayoría de los sistemas de datos empíricos dependientes del tiempo que se dice que siguen la ley de Zipf son en realidad cuasi-Zipfianas. Los sistemas cuasi-Zipfian se pueden representar mediante modelos cuasi-Atlas , y los modelos cuasi-Atlas son susceptibles de un tratamiento matemático similar al de la ley de Zipf.

Leyes relacionadas

Un diagrama de frecuencia de palabras en Wikipedia (27 de noviembre de 2006). La gráfica está en coordenadas log-log . x es el rango de una palabra en la tabla de frecuencias; y es el número total de apariciones de la palabra. Las palabras más populares son "el", "de" y "y", como se esperaba. La ley de Zipf corresponde a la porción lineal media de la curva, siguiendo aproximadamente la línea verde (1 / x ), mientras que la parte inicial está más cerca de la línea magenta (1 / x ^0,5 ) mientras que la última parte está más cerca del cian (1 / ( k + x ) ^2.0 ) línea. Estas líneas corresponden a tres parametrizaciones distintas de la distribución de Zipf-Mandelbrot, en general una ley de potencia rota con tres segmentos: una cabeza, un medio y una cola.

De hecho, la ley de Zipf se refiere de manera más general a las distribuciones de frecuencia de los "datos de rango", en los que la frecuencia relativa del elemento en el n -ésimo lugar está dada por la distribución zeta , 1 / ( n ^s ζ ( s )), donde el parámetro s > 1 indexa los miembros de esta familia de distribuciones de probabilidad . De hecho, la ley de Zipf es a veces sinónimo de "distribución zeta", ya que las distribuciones de probabilidad a veces se denominan "leyes". Esta distribución a veces se denomina distribución Zipfian .

Una generalización de la ley de Zipf es la ley de Zipf-Mandelbrot , propuesta por Benoit Mandelbrot , cuyas frecuencias son:

{\ Displaystyle f (k; N, q, s) = {\ frac {[{\ text {constante}}]} {(k + q) ^ {s}}}. \,}

La "constante" es el recíproco de la función zeta de Hurwitz evaluada en s . En la práctica, como es fácilmente observable en gráficos de distribución para grandes corpora, la distribución observada se puede modelar con mayor precisión como una suma de distribuciones separadas para diferentes subconjuntos o subtipos de palabras que siguen diferentes parametrizaciones de la distribución Zipf-Mandelbrot, en particular la clase cerrada. de las palabras funcionales presentan s menor que 1, mientras que el crecimiento de vocabulario abierto con tamaño de documento y tamaño de corpus requiere s mayor que 1 para la convergencia de la Serie Armónica Generalizada . ^[2]

Las distribuciones Zipfian se pueden obtener de las distribuciones de Pareto mediante un intercambio de variables. ^[10]

La distribución Zipf a veces se denomina distribución discreta de Pareto ^[23] porque es análoga a la distribución continua de Pareto de la misma forma que la distribución uniforme discreta es análoga a la distribución uniforme continua .

Las frecuencias de cola de la distribución Yule-Simon son aproximadamente

{\ Displaystyle f (k; \ rho) \ approx {\ frac {[{\ text {constante}}]} {k ^ {\ rho +1}}}}

para cualquier elección de ρ > 0.

En la distribución fractal parabólica , el logaritmo de la frecuencia es un polinomio cuadrático del logaritmo del rango. Esto puede mejorar notablemente el ajuste sobre una relación simple de ley de potencia. ^[24] Al igual que la dimensión fractal, es posible calcular la dimensión Zipf, que es un parámetro útil en el análisis de textos. ^[25]

Se ha argumentado que la ley de Benford es un caso especial limitado de la ley de Zipf, ^[24] y la conexión entre estas dos leyes se explica porque ambas se originan a partir de relaciones funcionales invariantes de escala de la física estadística y los fenómenos críticos. ^[26] Las razones de probabilidades en la ley de Benford no son constantes. Los primeros dígitos de los datos que satisfacen la ley de Zipf con s = 1 satisfacen la ley de Benford.

${\ Displaystyle n}$	Ley de Benford: ${\ Displaystyle P (n) =}$ ${\ Displaystyle \ log _ {10} (n + 1) - \ log _ {10} (n)}$	${\ Displaystyle {\ frac {\ log (P (n) / P (n-1))} {\ log (n / (n-1))}}}$
1	0.30103000
2	0.17609126	−0,7735840
3	0.12493874	−0,8463832
4	0.09691001	−0,8830605
5	0.07918125	−0,9054412
6	0.06694679	−0,9205788
7	0.05799195	−0,9315169
8	0.05115252	−0,9397966
9	0.04575749	−0,9462848

Aplicaciones

En teoría de la información , un símbolo (evento, señal) de probabilidad ${\ Displaystyle p}$ contiene ${\ Displaystyle - \ log _ {2} (1 / p)}$ bits de información. Por lo tanto, la ley de Zipf para números naturales: ${\ Displaystyle \ Pr (x) \ aproximadamente 1 / x}$ es equivalente a numero ${\ Displaystyle x}$ conteniendo ${\ Displaystyle \ log _ {2} (x)}$ bits de información. Para agregar información de un símbolo de probabilidad ${\ Displaystyle p}$ en información ya almacenada en un número natural ${\ Displaystyle x}$ , deberíamos ir a ${\ Displaystyle x '}$ tal que ${\ Displaystyle \ log _ {2} (x ') \ approx \ log _ {2} (x) + \ log _ {2} (1 / p)}$ , o equivalente ${\ Displaystyle x '\ approx x / p}$ . Por ejemplo, en un sistema binario estándar tendríamos ${\ Displaystyle x '= 2x + s}$ , lo que es óptimo para ${\ Displaystyle \ Pr (s = 0) = \ Pr (s = 1) = 1/2}$ Distribución de probabilidad. Utilizando ${\ Displaystyle x '\ approx x / p}$ La regla para una distribución de probabilidad general es la base de la familia de métodos de codificación de entropía de Asymmetric Numeral Systems utilizados en la compresión de datos , cuya distribución de estado también se rige por la ley de Zipf.

La ley de Zipf se ha utilizado para extraer fragmentos paralelos de textos a partir de corpus comparables. ^[27] La ley de Zipf también ha sido utilizada por Laurance Doyle y otros en el Instituto SETI como parte de la búsqueda de inteligencia extraterrestre . ^[28]^[29]

Ver también

Regla del 1% (cultura de Internet)
Ley de Benford
Ley de Bradford
Ley de brevedad
Gravitación demográfica
Lista de frecuencias
Ley de Gibrat
Legomenon de Hapax
Ley de montones
Efecto rey
Curva de Lorenz
Ley de Lotka
Ley de menzerath
Distribución de Pareto
Principio de Pareto , también conocido como la "regla 80-20"
Ley de precios
Principio de mínimo esfuerzo
Distribución de rango por tamaño
Ley de la eponimia de Stigler
Cola larga

Referencias

^ Fagan, Stephen; Gençay, Ramazan (2010), "Una introducción a la econometría textual", en Ullah, Aman; Giles, David EA (eds.), Manual de economía y finanzas empíricas , CRC Press, págs. 133-153, ISBN 9781420070361. P. 139 : "Por ejemplo, en el Brown Corpus, que consta de más de un millón de palabras, la mitad del volumen de palabras consta de usos repetidos de sólo 135 palabras".
^ a b c Powers, David MW (1998). "Aplicaciones y explicaciones de la ley de Zipf" . Asociación de Lingüística Computacional: 151–160. Parámetro desconocido |conference=ignorado ( ayuda );Cite journal requiere |journal=( ayuda )
^ Christopher D. Manning, Hinrich Schütze Fundamentos del procesamiento estadístico del lenguaje natural , MIT Press (1999), ISBN 978-0-262-13360-9 , pág. 24
↑ a b Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann's Geographische Mitteilungen 59, 74–76
^ Piantadosi, Steven (25 de marzo de 2014). "Ley de frecuencia de palabras de Zipf en lenguaje natural: una revisión crítica y direcciones futuras" . Psychon Bull Rev . 21 (5): 1112-1130. doi : 10.3758 / s13423-014-0585-6 . PMC 4176592 . PMID 24664880 .
^ Greiner-Petter, André; Schubotz, Moritz; Mueller, Fabián; Breitinger, Corinna; Cohl, Howard; Aizawa, Akiko; Gipp, Bela (20 de abril de 2020). Descubrimiento de objetos matemáticos de interés: un estudio de notaciones matemáticas . La Conferencia Web (WWW). Taipei, Taiwán: ACM. arXiv : 2002.02712 . doi : 10.1145 / 3366423.3380218 .
^ Zanette, Damián H. (7 de junio de 2004). "Ley de Zipf y la creación de contexto musical". arXiv : cs / 0406015 .
^ M. Eriksson, SM Hasibur Rahman, F. Fraille, M. Sjöström, Efficient Interactive Multicast over DVB-T2 - Utilizing Dynamic SFNs and PARPS Archivado 2014-05-02 en Wayback Machine , 2013 IEEE International Conference on Computer and Information Technology (BMSB'13), Londres, Reino Unido, junio de 2013. Sugiere un modelo heterogéneo de selección de canales de TV según la ley Zipf
^ Clauset, A., Shalizi, CR y Newman, MEJ (2009). Distribuciones de ley de potencias en datos empíricos. SIAM Review, 51 (4), 661–703. doi : 10.1137 / 070710111
^ a b Adamic, Lada A. (2000) "Zipf, Power-leyes y Pareto - un tutorial de clasificación", publicado originalmente en .parc.xerox.com Archivado 2007-10-26 en Wayback Machine
^ Moreno-Sánchez, yo; Font-Clos, F; Corral, A (2016). "Análisis a gran escala de la ley de Zipf en textos ingleses" . PLOS ONE . 11 (1): e0147073. arXiv : 1509.04486 . Código Bibliográfico : 2016PLoSO..1147073M . doi : 10.1371 / journal.pone.0147073 . PMC 4723055 . PMID 26800025 .
^ Bill Manaris; Luca Pellicoro; George Pothering; Harland Hodges (13 de febrero de 2006). Investigar las proporciones estadísticas del esperanto en relación con otros idiomas utilizando redes neuronales y la ley de Zipf (PDF) . Inteligencia artificial y aplicaciones . Innsbruck, Austria. págs. 102-108. Archivado desde el original (PDF) el 5 de marzo de 2016.
^ Léon Brillouin , La science et la théorie de l'information , 1959, réédité en 1988, traduction anglaise rééditée en 2004
^ Wentian Li (1992). "Textos aleatorios exhiben distribución de frecuencia de palabras similares a la ley de Zipf". Transacciones IEEE sobre teoría de la información . 38 (6): 1842–1845. CiteSeerX 10.1.1.164.8422 . doi : 10.1109 / 18.165464 .
^ Neumann, Peter G. "Metalingüística estadística y Zipf / Pareto / Mandelbrot" , Laboratorio Internacional de Ciencias de la Computación SRI , consultado y archivado el 29 de mayo de 2011.
^ Belevitch V (18 de diciembre de 1959). "Sobre las leyes estadísticas de las distribuciones lingüísticas" (PDF) . Annales de la Société Scientifique de Bruxelles . I. 73 : 310–326.
^ Zipf GK (1949). Comportamiento humano y el principio del mínimo esfuerzo . Cambridge, Massachusetts: Addison-Wesley. pag. 1.
^ Ramon Ferrer i Cancho y Ricard V. Sole (2003). "El menor esfuerzo y los orígenes del escalado en el lenguaje humano" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 100 (3): 788–791. Código bibliográfico : 2003PNAS..100..788C . doi : 10.1073 / pnas.0335980100 . PMC 298679 . PMID 12540826 .
^ Lin, Ruokuang; Ma, Qianli DY; Bian, Chunhua (2014). "Leyes de escala en el habla humana, aparición decreciente de nuevas palabras y un modelo generalizado". arXiv : 1412,4846 [ cs.CL ].
^ Vitanov, Nikolay K .; Ausloos, Marcel; Bian, Chunhua (2015). "Prueba de dos hipótesis que explican el tamaño de las poblaciones en un sistema de ciudades". Revista de estadísticas aplicadas . 42 (12): 2686–2693. arXiv : 1506.08535 . Código Bibliográfico : 2015arXiv150608535V . doi : 10.1080 / 02664763.2015.1047744 . S2CID 10599428 .
^ Ricardo T. Fernholz; Robert Fernholz (diciembre de 2020). "Ley de Zipf para modelos de atlas" . Revista de probabilidad aplicada . 57 (4): 1276-1297.
^ Terence Tao (2012). "E Pluribus Unum: desde la complejidad, la universalidad" . Dédalo . 141 (3): 23–34.
^ NL Johnson; S. Kotz y AW Kemp (1992). Distribuciones discretas univariadas (segunda ed.). Nueva York: John Wiley & Sons, Inc. ISBN 978-0-471-54897-3., pag. 466.
^ a b Johan Gerard van der Galien (8 de noviembre de 2003). "Aleatoriedad factorial: las leyes de Benford y Zipf con respecto a la distribución del primer dígito de la secuencia de factores de los números naturales" . Archivado desde el original el 5 de marzo de 2007 . Consultado el 8 de julio de 2016 .
^ Eftekhari, Ali (2006). "Geometría fractal de textos: una aplicación inicial a las obras de Shakespeare". Revista de Lingüística Cuantitativa . 13 (2-3): 177-193. doi : 10.1080 / 09296170600850106 .
^ Pietronero, L .; Tosatti, E .; Tosatti, V .; Vespignani, A. (2001). "Explicando la distribución desigual de números en la naturaleza: las leyes de Benford y Zipf". Un Physica . 293 (1–2): 297–304. doi : 10.1016 / S0378-4371 (00) 00633-6 .
^ Mohammadi, Mehdi (2016). "Identificación de documentos paralelos mediante la ley de Zipf" (PDF) . Actas del Noveno Taller sobre Construcción y Uso de Corpora Comparables . LREC 2016. Portorož, Eslovenia. págs. 21-25. Archivado (PDF) desde el original el 23 de marzo de 2018.
^ Doyle, Laurance R .; Mao, Tianhua (18 de noviembre de 2016). "Por qué el lenguaje alienígena se destacaría entre todo el ruido del universo" . Nautilus Quarterly .
^ Kershenbaum, Arik (16 de marzo de 2021). La guía del zoólogo de la galaxia: lo que los animales de la Tierra revelan sobre los extraterrestres y sobre nosotros mismos . Pingüino. págs. 251-256. ISBN 978-1-9848-8197-7. OCLC 1242873084 .

Otras lecturas

Primario:

George K. Zipf (1949) Comportamiento humano y el principio del mínimo esfuerzo . Addison-Wesley. "Texto en línea [1] "
George K. Zipf (1935) La psicobiología del lenguaje . Houghton-Mifflin.

Secundario:

Alexander Gelbukh y Grigori Sidorov (2001) "Los coeficientes de las leyes de Zipf y Heaps dependen del idioma" . Proc. CICLing -2001, Conferencia sobre Procesamiento Inteligente de Texto y Lingüística Computacional , 18 al 24 de febrero de 2001, Ciudad de México. Notas de la conferencia en Ciencias de la Computación N 2004, ISSN 0302-9743 , ISBN 3-540-41687-0 , Springer-Verlag: 332-335.
Damián H. Zanette (2006) " La ley de Zipf y la creación de contexto musical ", Musicae Scientiae 10 : 3-18.
Frans J. Van Droogenbroeck (2016), Manejo de la distribución Zipf en la atribución de autoría computarizada
Frans J. Van Droogenbroeck (2019), Una reformulación esencial de la ley Zipf-Mandelbrot para resolver las aplicaciones de atribución de autoría por parte de las estadísticas gaussianas.
Kali R. (2003) "La ciudad como un componente gigante: un enfoque de gráfico aleatorio de la ley de Zipf", Applied Economics Letters 10 : 717–720 (4)
Gabaix, Xavier (agosto de 1999). "Ley de Zipf para las ciudades: una explicación" (PDF) . Revista Trimestral de Economía . 114 (3): 739–67. CiteSeerX 10.1.1.180.4097 . doi : 10.1162 / 003355399556133 . ISSN 0033-5533 .
Axtell, Robert L; Distribución Zipf de tamaños de empresas estadounidenses , Science, 293, 5536, 1818, 2001, American Association for the Advancement of Science
Ramu Chenna, Toby Gibson; Evaluación de la idoneidad de un modelo de brecha de Zipfian para la alineación de secuencias por pares , Conferencia internacional sobre biología computacional bioinformática: 2011.
Shyklo A. (2017); Explicación simple del misterio de Zipf a través de la nueva distribución de acciones de rango, derivada de la combinación del proceso de clasificación , disponible en SSRN: https://ssrn.com/abstract=2918642 .

enlaces externos

Strogatz, Steven (29 de mayo de 2009). "Columna invitada: Matemáticas y la ciudad" . The New York Times . Consultado el 29 de mayo de 2009 .—Un artículo sobre la ley de Zipf aplicada a las poblaciones de las ciudades
Ver alrededor de las esquinas (las sociedades artificiales revelan la ley de Zipf)
Artículo de PlanetMath sobre la ley de Zipf
Distribuciones de tipo "fractal parabolique" dans la Nature (francés, con resumen en inglés)
Un análisis de la distribución del ingreso
Zipf Lista de palabras en francés
Lista zipf para inglés, francés, español, italiano, sueco, islandés, latín, portugués y finlandés del Proyecto Gutenberg y calculadora en línea para clasificar palabras en textos
Citas y la ley de Zipf-Mandelbrot
Ejemplos y modelado de la ley de Zipf (1985)
Sistemas complejos: descomprimir la ley de Zipf (2011)
La ley de Benford, la ley de Zipf y la distribución de Pareto de Terence Tao.
"Ley Zipf" , Enciclopedia de Matemáticas , EMS Press , 2001 [1994]

[1] Fagan, Stephen; Gençay, Ramazan (2010), "Una introducción a la econometría textual", en Ullah, Aman; Giles, David EA (eds.), Manual de economía y finanzas empíricas , CRC Press, págs. 133-153, ISBN 9781420070361. P. 139 : "Por ejemplo, en el Brown Corpus, que consta de más de un millón de palabras, la mitad del volumen de palabras consta de usos repetidos de sólo 135 palabras".

[Powers1998-2] Powers, David MW (1998). "Aplicaciones y explicaciones de la ley de Zipf" . Asociación de Lingüística Computacional: 151–160. Parámetro desconocido |conference=ignorado ( ayuda );Cite journal requiere |journal=( ayuda )

[3] Christopher D. Manning, Hinrich Schütze Fundamentos del procesamiento estadístico del lenguaje natural , MIT Press (1999), ISBN 978-0-262-13360-9 , pág. 24

[Auerbach1913-4] Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann's Geographische Mitteilungen 59, 74–76

[5] Piantadosi, Steven (25 de marzo de 2014). "Ley de frecuencia de palabras de Zipf en lenguaje natural: una revisión crítica y direcciones futuras" . Psychon Bull Rev . 21 (5): 1112-1130. doi : 10.3758 / s13423-014-0585-6 . PMC 4176592 . PMID 24664880 .

[6] Greiner-Petter, André; Schubotz, Moritz; Mueller, Fabián; Breitinger, Corinna; Cohl, Howard; Aizawa, Akiko; Gipp, Bela (20 de abril de 2020). Descubrimiento de objetos matemáticos de interés: un estudio de notaciones matemáticas . La Conferencia Web (WWW). Taipei, Taiwán: ACM. arXiv : 2002.02712 . doi : 10.1145 / 3366423.3380218 .

[7] Zanette, Damián H. (7 de junio de 2004). "Ley de Zipf y la creación de contexto musical". arXiv : cs / 0406015 .

[8] M. Eriksson, SM Hasibur Rahman, F. Fraille, M. Sjöström, Efficient Interactive Multicast over DVB-T2 - Utilizing Dynamic SFNs and PARPS Archivado 2014-05-02 en Wayback Machine , 2013 IEEE International Conference on Computer and Information Technology (BMSB'13), Londres, Reino Unido, junio de 2013. Sugiere un modelo heterogéneo de selección de canales de TV según la ley Zipf

[Clausetetal2009-9] Clauset, A., Shalizi, CR y Newman, MEJ (2009). Distribuciones de ley de potencias en datos empíricos. SIAM Review, 51 (4), 661–703. doi : 10.1137 / 070710111

[Adamic2000-10] Adamic, Lada A. (2000) "Zipf, Power-leyes y Pareto - un tutorial de clasificación", publicado originalmente en .parc.xerox.com Archivado 2007-10-26 en Wayback Machine

[11] Moreno-Sánchez, yo; Font-Clos, F; Corral, A (2016). "Análisis a gran escala de la ley de Zipf en textos ingleses" . PLOS ONE . 11 (1): e0147073. arXiv : 1509.04486 . Código Bibliográfico : 2016PLoSO..1147073M . doi : 10.1371 / journal.pone.0147073 . PMC 4723055 . PMID 26800025 .

[12] Bill Manaris; Luca Pellicoro; George Pothering; Harland Hodges (13 de febrero de 2006). Investigar las proporciones estadísticas del esperanto en relación con otros idiomas utilizando redes neuronales y la ley de Zipf (PDF) . Inteligencia artificial y aplicaciones . Innsbruck, Austria. págs. 102-108. Archivado desde el original (PDF) el 5 de marzo de 2016.

[13] Léon Brillouin , La science et la théorie de l'information , 1959, réédité en 1988, traduction anglaise rééditée en 2004

[14] Wentian Li (1992). "Textos aleatorios exhiben distribución de frecuencia de palabras similares a la ley de Zipf". Transacciones IEEE sobre teoría de la información . 38 (6): 1842–1845. CiteSeerX 10.1.1.164.8422 . doi : 10.1109 / 18.165464 .

[15] Neumann, Peter G. "Metalingüística estadística y Zipf / Pareto / Mandelbrot" , Laboratorio Internacional de Ciencias de la Computación SRI , consultado y archivado el 29 de mayo de 2011.

[16] Belevitch V (18 de diciembre de 1959). "Sobre las leyes estadísticas de las distribuciones lingüísticas" (PDF) . Annales de la Société Scientifique de Bruxelles . I. 73 : 310–326.

[17] Zipf GK (1949). Comportamiento humano y el principio del mínimo esfuerzo . Cambridge, Massachusetts: Addison-Wesley. pag. 1.

[18] Ramon Ferrer i Cancho y Ricard V. Sole (2003). "El menor esfuerzo y los orígenes del escalado en el lenguaje humano" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 100 (3): 788–791. Código bibliográfico : 2003PNAS..100..788C . doi : 10.1073 / pnas.0335980100 . PMC 298679 . PMID 12540826 .

[19] Lin, Ruokuang; Ma, Qianli DY; Bian, Chunhua (2014). "Leyes de escala en el habla humana, aparición decreciente de nuevas palabras y un modelo generalizado". arXiv : 1412,4846 [ cs.CL ].

[20] Vitanov, Nikolay K .; Ausloos, Marcel; Bian, Chunhua (2015). "Prueba de dos hipótesis que explican el tamaño de las poblaciones en un sistema de ciudades". Revista de estadísticas aplicadas . 42 (12): 2686–2693. arXiv : 1506.08535 . Código Bibliográfico : 2015arXiv150608535V . doi : 10.1080 / 02664763.2015.1047744 . S2CID 10599428 .

[21] Ricardo T. Fernholz; Robert Fernholz (diciembre de 2020). "Ley de Zipf para modelos de atlas" . Revista de probabilidad aplicada . 57 (4): 1276-1297.

[22] Terence Tao (2012). "E Pluribus Unum: desde la complejidad, la universalidad" . Dédalo . 141 (3): 23–34.

[23] NL Johnson; S. Kotz y AW Kemp (1992). Distribuciones discretas univariadas (segunda ed.). Nueva York: John Wiley & Sons, Inc. ISBN 978-0-471-54897-3., pag. 466.

[Galien-24] Johan Gerard van der Galien (8 de noviembre de 2003). "Aleatoriedad factorial: las leyes de Benford y Zipf con respecto a la distribución del primer dígito de la secuencia de factores de los números naturales" . Archivado desde el original el 5 de marzo de 2007 . Consultado el 8 de julio de 2016 .

[25] Eftekhari, Ali (2006). "Geometría fractal de textos: una aplicación inicial a las obras de Shakespeare". Revista de Lingüística Cuantitativa . 13 (2-3): 177-193. doi : 10.1080 / 09296170600850106 .

[26] Pietronero, L .; Tosatti, E .; Tosatti, V .; Vespignani, A. (2001). "Explicando la distribución desigual de números en la naturaleza: las leyes de Benford y Zipf". Un Physica . 293 (1–2): 297–304. doi : 10.1016 / S0378-4371 (00) 00633-6 .

[27] Mohammadi, Mehdi (2016). "Identificación de documentos paralelos mediante la ley de Zipf" (PDF) . Actas del Noveno Taller sobre Construcción y Uso de Corpora Comparables . LREC 2016. Portorož, Eslovenia. págs. 21-25. Archivado (PDF) desde el original el 23 de marzo de 2018.

[28] Doyle, Laurance R .; Mao, Tianhua (18 de noviembre de 2016). "Por qué el lenguaje alienígena se destacaría entre todo el ruido del universo" . Nautilus Quarterly .

[29] Kershenbaum, Arik (16 de marzo de 2021). La guía del zoólogo de la galaxia: lo que los animales de la Tierra revelan sobre los extraterrestres y sobre nosotros mismos . Pingüino. págs. 251-256. ISBN 978-1-9848-8197-7. OCLC 1242873084 .

[1]