Variación cualitativa

Un índice de variación cualitativa ( IQV ) es una medida de dispersión estadística en distribuciones nominales . Hay una variedad de estos, pero se han estudiado relativamente poco en la literatura estadística. El más simple es el índice de variación , mientras que los índices más complejos incluyen la entropía de la información .

Propiedades

Hay varios tipos de índices que se utilizan para el análisis de datos nominales. Varias son estadísticas estándar que se utilizan en otros lugares: rango , desviación estándar , varianza , desviación media , coeficiente de variación , desviación absoluta mediana , rango intercuartílico y desviación cuartil .

Además de estos, se han desarrollado varias estadísticas teniendo en cuenta los datos nominales. Wilcox ( Wilcox 1967 ), ( Wilcox 1973 ) ha resumido e ideado un número , que requiere que se satisfagan las siguientes propiedades de estandarización:

La variación varía entre 0 y 1.
La variación es 0 si y solo si todos los casos pertenecen a una sola categoría.
La variación es 1 si y solo si los casos se dividen uniformemente en todas las categorías. ^[1]

En particular, el valor de estos índices estandarizados no depende del número de categorías o del número de muestras.

Para cualquier índice, cuanto más cercana a la uniformidad sea la distribución, mayor será la varianza, y cuanto mayores sean las diferencias en las frecuencias entre categorías, menor será la varianza.

Los índices de variación cualitativa son entonces análogos a la entropía de la información , que se minimiza cuando todos los casos pertenecen a una sola categoría y se maximizan en una distribución uniforme. De hecho, la entropía de la información se puede utilizar como índice de variación cualitativa.

Una caracterización de un índice particular de variación cualitativa (IQV) es como una relación entre las diferencias observadas y las diferencias máximas.

Índices de Wilcox

Wilcox da una serie de fórmulas para varios índices de QV ( Wilcox 1973 ), la primera, que designa DM para "Desviación de la moda", es una forma estandarizada de la razón de variación y es análoga a la varianza como desviación de la media. .

ModVR

La fórmula para la variación alrededor del modo (ModVR) se deriva de la siguiente manera:

{\ Displaystyle M = \ sum _ {i = 1} ^ {K} (f_ {m} -f_ {i})}

donde f _m es la frecuencia modal, K es el número de categorías y f _i es la frecuencia del i- ^ésimo grupo.

Esto se puede simplificar a

{\ Displaystyle M = Kf_ {m} -N}

donde N es el tamaño total de la muestra.

El índice de Freeman (o relación de variación) es ^[2]

{\ Displaystyle v = 1 - {\ frac {f_ {m}} {N}}}

Esto está relacionado con M de la siguiente manera:

{\ Displaystyle {\ frac {({\ frac {f_ {m}} {N}}) - {\ frac {1} {K}}} {{\ frac {N} {K}} {\ frac {( K-1)} {N}}}} = {\ frac {M} {N (K-1)}}}

El ModVR se define como

{\ Displaystyle \ operatorname {ModVR} = 1 - {\ frac {Kf_ {m} -N} {N (K-1)}} = {\ frac {K (N-f_ {m})} {N (K -1)}} = {\ frac {Kv} {K-1}}}

donde v es el índice de Freeman.

Los valores bajos de ModVR corresponden a una pequeña cantidad de variación y los valores altos a una gran cantidad de variación.

Cuando K es grande, ModVR es aproximadamente igual al índice de Freeman v .

RanVR

Esto se basa en el rango alrededor del modo. Se define para ser

{\ Displaystyle \ operatorname {RanVR} = 1 - {\ frac {f_ {m} -f_ {l}} {f_ {m}}} = {\ frac {f_ {l}} {f_ {m}}}}

donde f _m es la frecuencia modal y f _l es la frecuencia más baja.

AvDev

Este es un análogo de la desviación media. Se define como la media aritmética de las diferencias absolutas de cada valor de la media.

{\ Displaystyle \ operatorname {AvDev} = 1 - {\ frac {1} {2N}} {\ frac {K} {K-1}} \ sum _ {i = 1} ^ {K} \ left | f_ { i} - {\ frac {N} {K}} \ right |}

MNDif

Este es un análogo de la diferencia de medias: el promedio de las diferencias de todos los pares posibles de valores variables, tomados independientemente del signo. La diferencia de medias difiere de la media y la desviación estándar porque depende de la dispersión de los valores variables entre sí y no de las desviaciones de algún valor central. ^[3]

{\ Displaystyle \ operatorname {MNDif} = 1 - {\ frac {1} {N (K-1)}} \ sum _ {i = 1} ^ {K-1} \ sum _ {j = i + 1} ^ {K} | f_ {i} -f_ {j} |}

donde f _i y f _j son las frecuencias i- ^ésima y j- ^ésima , respectivamente.

El MNDif es el coeficiente de Gini aplicado a datos cualitativos.

VarNC

Este es un análogo de la varianza.

{\ Displaystyle \ operatorname {VarNC} = 1 - {\ frac {1} {N ^ {2}}} {\ frac {K} {K-1}} \ sum \ left (f_ {i} - {\ frac {N} {K}} \ derecha) ^ {2}}

Es el mismo índice que el índice de variación cualitativa de Mueller y Schussler ^[4] y el índice M2 de Gibbs .

Se distribuye como una variable chi cuadrado con K - 1 grados de libertad . ^{[[[Wikipedia:Citing_sources|page needed]]="this_citation_requires_a_reference_to_the_specific_page_or_range_of_pages_in_which_the_material_appears. (may_2020)">]}_5-0" class="reference">[5]

StDev

Wilson ha sugerido dos versiones de esta estadística.

El primero se basa en AvDev.

{\ Displaystyle \ operatorname {StDev} _ {1} = 1 - {\ sqrt {\ frac {\ sum _ {i = 1} ^ {K} \ left (f_ {i} - {\ frac {N} {K }} \ right) ^ {2}} {\ left (N - {\ frac {N} {K}} \ right) ^ {2} + (K-1) \ left ({\ frac {N} {K }} \ derecha) ^ {2}}}}}

El segundo se basa en MNDif

{\ Displaystyle \ operatorname {StDev} _ {2} = 1 - {\ sqrt {\ frac {\ sum _ {i = 1} ^ {K-1} \ sum _ {j = i + 1} ^ {K} (f_ {i} -f_ {j}) ^ {2}} {N ^ {2} (K-1)}}}}

HRel

Este índice fue desarrollado originalmente por Claude Shannon para especificar las propiedades de los canales de comunicación.

{\ Displaystyle \ operatorname {HRel} = {\ frac {- \ sum p_ {i} \ log _ {2} p_ {i}} {\ log _ {2} K}}}

donde p _i = f _i / N .

Esto es equivalente a la entropía de la información dividida por la ${\ Displaystyle \ log _ {2} (K)}$ y es útil para comparar la variación relativa entre tablas de frecuencia de varios tamaños.

Índice B

Wilcox adaptó una propuesta de Kaiser ^[6] basada en la media geométrica y creó el índice B ' . El índice B se define como

{\ Displaystyle B = 1 - {\ sqrt {1- \ left [{\ sqrt [{k}] {\ prod _ {i = 1} ^ {k} {\ frac {f_ {i} K} {N} }}} \, \ right] ^ {2}}}}

Paquetes R

Varios de estos índices se han implementado en el lenguaje R. ^[7]

Índices de Gibb y fórmulas relacionadas

Gibbs y Poston Jr (1975) propusieron seis índices. ^[8]

M 1

El índice no estandarizado ( M 1) ( Gibbs & Poston Jr 1975 , p. 471) es

{\ Displaystyle M1 = 1- \ sum _ {i = 1} ^ {K} p_ {i} ^ {2}}

donde K es el número de categorías y ${\ Displaystyle p_ {i} = f_ {i} / N}$ es la proporción de observaciones que caen en una categoría i dada .

M 1 puede interpretarse como uno menos la probabilidad de que un par aleatorio de muestras pertenezca a la misma categoría, ^[9] por lo que esta fórmula para IQV es una probabilidad estandarizada de que un par aleatorio pertenezca a la misma categoría. Este índice también se ha denominado índice de diferenciación, índice de diferenciación de sustento e índice de diferenciación geográfica según el contexto en el que se ha utilizado.

M 2

Un segundo índice es el M2 ^[10] ( Gibbs & Poston Jr 1975 , p. 472) es:

{\ Displaystyle M2 = {\ frac {K} {K-1}} \ left (1- \ sum _ {i = 1} ^ {K} p_ {i} ^ {2} \ right)}

donde K es el número de categorías y ${\ Displaystyle p_ {i} = f_ {i} / N}$ es la proporción de observaciones que caen en una categoría i dada . El factor de ${\ displaystyle {\ frac {K} {K-1}}}$ es para la estandarización.

M 1 y M 2 se pueden interpretar en términos de la varianza de una distribución multinomial ( Swanson 1976 ) (llamado allí un "modelo binomial expandido"). M 1 es la varianza de la distribución multinomial y M 2 es la relación entre la varianza de la distribución multinomial y la varianza de una distribución binomial .

M 4

El índice M 4 es

{\ Displaystyle M4 = {\ frac {\ sum _ {i = 1} ^ {K} | X_ {i} -m |} {2 \ sum _ {i = 1} ^ {K} X_ {i}}} }

donde m es la media.

M 6

La fórmula para M 6 es

{\ Displaystyle M6 = K \ left [1 - {\ frac {\ sum _ {i = 1} ^ {K} | X_ {i} -m |} {2N}} \ right]}

· Donde K es el número de categorías, X _i es el número de puntos de datos en la i- ^ésima categoría, N es el número total de puntos de datos, || es el valor absoluto (módulo) y

{\ Displaystyle m = {\ frac {\ sum _ {i = 1} ^ {K} X_ {i}} {N}}}

Esta fórmula se puede simplificar

{\ Displaystyle M6 = K \ left [1 - {\ frac {\ sum _ {i = 1} ^ {K} \ left | p_ {i} - {\ frac {1} {N}} \ right |} { 2}} \ derecha]}

donde p _i es la proporción de la muestra en la i- ^ésima categoría.

En la práctica, M 1 y M 6 tienden a estar altamente correlacionados, lo que va en contra de su uso combinado.

Índices relacionados

La suma

{\ Displaystyle \ sum _ {i = 1} ^ {K} p_ {i} ^ {2}}

también ha encontrado aplicación. Esto se conoce como índice de Simpson en ecología y como índice de Herfindahl o índice de Herfindahl-Hirschman (HHI) en economía. Una variante de esto se conoce como índice de Hunter-Gaston en microbiología ^[11].

En lingüística y criptoanálisis, esta suma se conoce como tasa de repetición. La incidencia de coincidencia ( IC ) es un estimador insesgado de esta estadística ^[12]

{\ Displaystyle \ operatorname {IC} = \ sum {\ frac {f_ {i} (f_ {i} -1)} {n (n-1)}}}

donde f _i es el recuento del i- ^ésimo grafema en el texto y n es el número total de grafemas en el texto.

M 1

La estadística M 1 definida anteriormente se ha propuesto varias veces en varios entornos diferentes con una variedad de nombres. Estos incluyen el índice de mutabilidad de Gini, ^[13] la medida de diversidad de Simpson, ^[14] el índice de homogeneidad lingüística de Bachi, ^[15] el índice de variación cualitativa de Mueller y Schuessler, ^[16] el índice de diversificación industrial de Gibbs y Martin, ^[17] Lieberson índice. ^{[[[Wikipedia:Citing_sources|page needed]]="this_citation_requires_a_reference_to_the_specific_page_or_range_of_pages_in_which_the_material_appears. (may_2020)">]}_18-0" class="reference">[18] y el índice de Blau en estudios de sociología, psicología y gestión. ^[19] La formulación de todos estos índices es idéntica.

La D de Simpson se define como

{\ Displaystyle D = 1- \ sum _ {i = 1} ^ {K} {\ frac {n_ {i} (n_ {i} -1)} {n (n-1)}}}

donde n es el tamaño total de la muestra y n _i es el número de elementos de la i- ^ésima categoría.

Para grandes n tenemos

{\ Displaystyle u \ sim 1- \ sum _ {i = 1} ^ {K} p_ {i} ^ {2}}

Otra estadística que se ha propuesto es el coeficiente de incompatibilidad que oscila entre 0 y 1. ^[20]

{\ Displaystyle u = {\ frac {c (x, y)} {n ^ {2} -n}}}

donde n es el tamaño de la muestra y c ( x , y ) = 1 si x y y son iguales y 0 en caso contrario.

Para grandes n tenemos

{\ Displaystyle u \ sim 1- \ sum _ {i = 1} ^ {K} p_ {i} ^ {2}}

donde K es el número de categorías.

Otra estadística relacionada es la entropía cuadrática.

{\ Displaystyle H ^ {2} = 2 \ left (1- \ sum _ {i = 1} ^ {K} p_ {i} ^ {2} \ right)}

que a su vez está relacionado con el índice de Gini .

M 2

El índice monolingüe no ponderado de diversidad lingüística de Greenberg ^[21] es la estadística M 2 definida anteriormente.

M 7

Otro índice, el M 7, se creó a partir del índice M 4 de Gibbs & Poston Jr (1975) ^[22].

{\ Displaystyle M7 = {\ frac {\ sum _ {i = 1} ^ {K} \ sum _ {j = 1} ^ {L} | R_ {i} -R |} {2 \ sum R_ {i} }}}

dónde

{\ Displaystyle R_ {ij} = {\ frac {O_ {ij}} {E_ {ij}}} = {\ frac {O_ {ij}} {n_ {i} p_ {j}}}}

y

{\ Displaystyle R = {\ frac {\ sum _ {i = 1} ^ {K} \ sum _ {j = 1} ^ {L} R_ {ij}} {\ sum _ {i = 1} ^ {K } n_ {i}}}}

donde K es el número de categorías, L es el número de subtipos, O _ij y E _ij son el número observado y esperado respectivamente del subtipo j en la i- ^ésima categoría, n _i es el número en la i- ^ésima categoría y p _j es la proporción de subtipo j en la muestra completa.

Nota: Este índice fue diseñado para medir la participación de las mujeres en el lugar de trabajo: los dos subtipos para los que fue desarrollado fueron masculino y femenino.

Otros índices de muestra única

Estos índices son estadísticas resumidas de la variación dentro de la muestra.

Índice de Berger-Parker

El índice de Berger-Parker es igual al máximo ${\ Displaystyle p_ {i}}$ valor en el conjunto de datos, es decir, la abundancia proporcional del tipo más abundante. ^[23] Esto corresponde a la media generalizada ponderada de la ${\ Displaystyle p_ {i}}$ valores cuando q se acerca al infinito, y por lo tanto es igual a la inversa de la verdadera diversidad de orden infinito (1 / ^∞D ).

Índice de diversidad de Brillouin

Este índice es estrictamente aplicable solo a poblaciones enteras en lugar de a muestras finitas. Se define como

{\ Displaystyle I_ {B} = {\ frac {\ log (N!) - \ sum _ {i = 1} ^ {K} (\ log (n_ {i}!))} {N}}}

donde N es el número total de individuos en la población, n _i es el número de individuos en la i- ^ésima categoría y N ! es el factorial de N . El índice de uniformidad de Brillouin se define como

{\ Displaystyle E_ {B} = I_ {B} / I_ {B (\ max)}}

donde I _{B (max)} es el valor máximo de I _B .

Números de diversidad de Hill

Hill sugirió una familia de números de diversidad ^[24]

{\ Displaystyle N_ {a} = {\ frac {1} {\ left [\ sum _ {i = 1} ^ {K} p_ {i} ^ {a} \ right] ^ {a-1}}}}

Para valores dados de varios de los otros índices se pueden calcular

a = 0: N _a = riqueza de especies
a = 1: N _a = índice de Shannon
a = 2: N _a = 1 / índice de Simpson (sin la corrección de muestra pequeña)
a = 3: N _a = 1 / índice de Berger-Parker

Hill también sugirió una familia de medidas de uniformidad

{\ Displaystyle E_ {a, b} = {\ frac {N_ {a}} {N_ {b}}}}

donde a > b .

Hill's E ₄ es

{\ Displaystyle E_ {4} = {\ frac {N_ {2}} {N_ {1}}}}

Hill's E ₅ es

{\ Displaystyle E_ {5} = {\ frac {N_ {2} -1} {N_ {1} -1}}}

Índice de Margalef

{\ Displaystyle I _ {\ text {Marg}} = {\ frac {S-1} {\ log _ {e} N}}}

donde S es el número de tipos de datos en la muestra y N es el tamaño total de la muestra. ^[25]

Índice de menhinick

{\ displaystyle I _ {\ mathrm {Hombres}} = {\ frac {S} {\ sqrt {N}}}}

donde S es el número de tipos de datos en la muestra y N es el tamaño total de la muestra. ^[26]

En lingüística, este índice es idéntico al índice de Kuraszkiewicz (índice de Guiard) donde S es el número de palabras distintas (tipos) y N es el número total de palabras (tokens) en el texto que se examina. ^[27]^[28] Este índice se puede derivar como un caso especial de la función Torquist generalizada. ^[29]

Estadístico Q

Esta es una estadística inventada por Kempton y Taylor. ^[30] e involucra los cuartiles de la muestra. Se define como

{\ Displaystyle Q = {\ frac {{\ frac {1} {2}} (n_ {R1} + n_ {R2}) + \ sum _ {j = R_ {1} +1} ^ {R_ {2} -1} n_ {j}} {\ log (R_ {2} / R_ {1})}}}

donde R ₁ y R ₁ son los cuartiles de 25% y 75% respectivamente en la curva de especies acumuladas, n _j es el número de especies en la j- _ésima categoría, n _Ri es el número de especies en la clase donde R _i cae ( i = 1 o 2).

Índice de Shannon-Wiener

Esto está tomado de la teoría de la información.

{\ Displaystyle H = \ log _ {e} N - {\ frac {1} {N}} \ sum n_ {i} p_ {i} \ log (p_ {i})}

donde N es el número total de la muestra y p _i es la proporción en la i- ^ésima categoría.

En ecología, donde este índice se usa comúnmente, H generalmente se encuentra entre 1.5 y 3.5 y rara vez excede 4.0.

Una fórmula aproximada para la desviación estándar (SD) de H es

{\ Displaystyle \ operatorname {SD} (H) = {\ frac {1} {N}} \ left [\ sum p_ {i} [\ log _ {e} (p_ {i})] ^ {2} - H ^ {2} \ right]}

donde p _i es la proporción compuesta por la i- ^ésima categoría y N es el total de la muestra.

Un valor aproximado más exacto de la varianza de H (var ( H )) viene dado por ^[31]

{\ Displaystyle \ operatorname {var} (H) = {\ frac {\ sum p_ {i} [\ log (p_ {i})] ^ {2} - \ left [\ sum p_ {i} \ log (p_ {i}) \ right] ^ {2}} {N}} + {\ frac {K-1} {2N ^ {2}}} + {\ frac {-1+ \ sum p_ {i} ^ {2 } - \ sum p_ {i} ^ {- 1} \ log (p_ {i}) + \ sum p_ {i} ^ {- 1} \ sum p_ {i} \ log (p_ {i})} {6N ^ {3}}}}

donde N es el tamaño de la muestra y K es el número de categorías.

Un índice relacionado es el Pielou J definido como

{\ Displaystyle J = {\ frac {H} {\ log _ {e} (S)}}}

Una dificultad con este índice es que S es desconocido para una muestra finita. En la práctica, S generalmente se establece en el máximo presente en cualquier categoría de la muestra.

Entropía de Rényi

La entropía de Rényi es una generalización de la entropía de Shannon a otros valores de q distintos de la unidad. Puede expresarse:

{\ Displaystyle {} ^ {q} H = {\ frac {1} {1-q}} \; \ ln \ left (\ sum _ {i = 1} ^ {K} p_ {i} ^ {q} \derecho)}

que es igual

{\ Displaystyle {} ^ {q} H = \ ln \ left ({1 \ over {\ sqrt [{q-1}] {\ sum _ {i = 1} ^ {K} p_ {i} p_ {i } ^ {q-1}}}} \ right) = \ ln ({} ^ {q} \! D)}

Esto significa que tomando el logaritmo de la diversidad verdadera basado en cualquier valor de q se obtiene la entropía de Rényi correspondiente al mismo valor de q .

El valor de ${\ Displaystyle {} ^ {q} \! D}$ también se conoce como el número Hill. ^[24]

D y E de McIntosh

{\ Displaystyle D = {\ frac {N - {\ sqrt {\ sum _ {i = 1} ^ {K} n_ {i}}}} {N - {\ sqrt {N}}}}}

donde N es el tamaño total de la muestra y n _i es el número de la i- ^ésima categoría.

{\ Displaystyle E = {\ frac {N - {\ sqrt {\ sum _ {i = 1} ^ {K} n_ {i}}}} {N - {\ frac {N} {\ sqrt {K}} }}}}

donde K es el número de categorías.

Alfa de Fisher

Este fue el primer índice que se derivó para la diversidad. ^[32]

${\ Displaystyle K = \ alpha \ ln (1 + {\ frac {N} {\ alpha}})}$

donde K es el número de categorías y N es el número de puntos de datos en la muestra. El α de Fisher debe estimarse numéricamente a partir de los datos.

El número esperado de individuos en la r- ^ésima categoría donde las categorías se han colocado en tamaño creciente es

{\ Displaystyle \ operatorname {E} (n_ {r}) = \ alpha {\ frac {X ^ {r}} {r}}}

donde X es un parámetro empírico que se encuentra entre 0 y 1. Si bien X se estima mejor numéricamente, se puede obtener un valor aproximado resolviendo las dos ecuaciones siguientes

{\ Displaystyle N = {\ frac {\ alpha X} {1-X}}}

{\ Displaystyle K = - \ alpha \ ln (1-X)}

donde K es el número de categorías y N es el tamaño total de la muestra.

La varianza de α es aproximadamente ^[33]

{\ Displaystyle \ operatorname {var} (\ alpha) = {\ frac {\ alpha} {\ ln (X) (1-X)}}}

Índice de Strong

Este índice ( D _w ) es la distancia entre la curva de Lorenz de distribución de especies y la línea de 45 grados. Está estrechamente relacionado con el coeficiente de Gini. ^[34]

En símbolos es

{\ Displaystyle D_ {w} = max [{\ frac {c_ {i}} {K}} - {\ frac {i} {N}}]}

donde max () es el valor máximo tomado sobre los N puntos de datos, K es el número de categorías (o especies) en el conjunto de datos y c _i es el total acumulado incluyendo la i- _ésima categoría.

Simpson's E

Esto está relacionado con la D de Simpson y se define como

{\ Displaystyle E = {\ frac {1 / D} {K}}}

donde D es la D de Simpson y K es el número de categorías de la muestra.

Índices de Smith & Wilson

Smith y Wilson sugirieron varios índices basados en la D de Simpson .

{\ Displaystyle E_ {1} = {\ frac {1-D} {1 - {\ frac {1} {K}}}}}

{\ Displaystyle E_ {2} = {\ frac {\ log _ {e} (D)} {\ log _ {e} (K)}}}

donde D es la D de Simpson y K es el número de categorías.

Índice de Heip

{\ Displaystyle E = {\ frac {e ^ {H} -1} {K-1}}}

donde H es la entropía de Shannon y K es el número de categorías.

Este índice está estrechamente relacionado con el índice de Sheldon, que es

{\ Displaystyle E = {\ frac {e ^ {H}} {K}}}

donde H es la entropía de Shannon y K es el número de categorías.

Índice de Camargo

Este índice fue creado por Camargo en 1993. ^[35]

${\ Displaystyle E = 1- \ sum _ {i = 1} ^ {K} \ sum _ {j = i + 1} ^ {K} {\ frac {p_ {i} -p_ {j}} {K} }}$

donde K es el número de categorías y p _i es la proporción en la i- ^ésima categoría.

Smith y Wilson's B

Este índice fue propuesto por Smith y Wilson en 1996. ^[36]

{\ Displaystyle B = 1 - {\ frac {2} {\ pi}} \ arctan (\ theta)}

donde θ es la pendiente de la curva de rango logarítmico (abundancia).

Índice de Nee, Harvey y Cotgreave

Ésta es la pendiente de la curva de rango logarítmico (abundancia).

E de Bulla

Hay dos versiones de este índice: una para distribuciones continuas ( E _c ) y la otra para distribuciones discretas ( E _d ). ^[37]

{\ Displaystyle E_ {c} = {\ frac {O - {\ frac {1} {K}}} {1 - {\ frac {1} {K}}}}}

{\ Displaystyle E_ {d} = {\ frac {O - {\ frac {1} {K}} - {\ frac {K-1} {N}}} {1 - {\ frac {1} {K} } - {\ frac {K-1} {N}}}}}

dónde

{\ Displaystyle O = 1 - {\ frac {1} {2}} \ left | p_ {i} - {\ frac {1} {K}} \ right |}

es el índice de Schoener-Czekanoski, K es el número de categorías y N es el tamaño de la muestra.

Índice de teoría de la información de Horn

Este índice ( R _ik ) se basa en la entropía de Shannon. ^[38] Se define como

{\ Displaystyle R_ {ik} = {\ frac {H _ {\ max} -H _ {\ mathrm {obs}}} {H _ {\ max} -H _ {\ min}}}}

dónde

{\ Displaystyle X = \ sum x_ {ij}}

{\ Displaystyle X = \ sum x_ {kj}}

{\ Displaystyle H (X) = \ sum {\ frac {x_ {ij}} {X}} \ log {\ frac {X} {x_ {ij}}}}

{\ Displaystyle H (Y) = \ sum {\ frac {x_ {kj}} {Y}} \ log {\ frac {Y} {x_ {kj}}}}

{\ Displaystyle H _ {\ min} = {\ frac {X} {X + Y}} H (X) + {\ frac {Y} {X + Y}} H (Y)}

{\ Displaystyle H _ {\ max} = \ sum \ left ({\ frac {x_ {ij}} {X + Y}} \ log {\ frac {X + Y} {x_ {ij}}} + {\ frac {x_ {kj}} {X + Y}} \ log {\ frac {X + Y} {x_ {kj}}} \ right)}

{\ Displaystyle H _ {\ mathrm {obs}} = \ sum {\ frac {x_ {ij} + x_ {kj}} {X + Y}} \ log {\ frac {X + Y} {x_ {ij} + x_ {kj}}}}

En estas ecuaciones, x _ij y x _kj son el número de veces que el j- ^ésimo tipo de datos aparece en la i- ^ésima o la k- ^ésima muestra, respectivamente.

Índice de rarefacción

En una muestra enrarecida, se elige una submuestra aleatoria n del total de N elementos. En esta muestra, algunos grupos pueden estar necesariamente ausentes de esta submuestra. Dejar ${\ Displaystyle X_ {n}}$ sea el número de grupos todavía presentes en la submuestra de n elementos. ${\ Displaystyle X_ {n}}$ es menor que K el número de categorías siempre que falta al menos un grupo en esta submuestra.

La curva de rarefacción , ${\ Displaystyle f_ {n}}$ Se define como:

{\ Displaystyle f_ {n} = \ operatorname {E} [X_ {n}] = K - {\ binom {N} {n}} ^ {- 1} \ sum _ {i = 1} ^ {K} { \ binom {N-N_ {i}} {n}}}

Tenga en cuenta que 0 ≤ f ( n ) ≤ K .

Además,

{\ Displaystyle f (0) = 0, \ f (1) = 1, \ f (N) = K.}

A pesar de estar definidas en valores discretos de n , estas curvas se muestran con mayor frecuencia como funciones continuas. ^[39]

Este índice se analiza con más detalle en Rarefacción (ecología) .

V de Caswell

Esta es una estadística de tipo z basada en la entropía de Shannon. ^[40]

{\ Displaystyle V = {\ frac {H- \ operatorname {E} (H)} {\ operatorname {SD} (H)}}}

donde H es la entropía de Shannon, E ( H ) es la entropía de Shannon esperada para un modelo de distribución neutral y SD ( H ) es la desviación estándar de la entropía. La desviación estándar se estima a partir de la fórmula derivada de Pielou

{\ Displaystyle SD (H) = {\ frac {1} {N}} \ left [\ sum p_ {i} [\ log _ {e} (p_ {i})] ^ {2} -H ^ {2 }\derecho]}

donde p _i es la proporción compuesta por la i- ^ésima categoría y N es el total de la muestra.

Índice de Lloyd & Ghelardi

Esto es

{\ Displaystyle I_ {LG} = {\ frac {K} {K '}}}

donde K es el número de categorías y K ' es el número de categorías según el modelo de palo roto de MacArthur que produce la diversidad observada.

Índice de distinción taxonómica promedio

Este índice se utiliza para comparar la relación entre los huéspedes y sus parásitos. ^[41] Incorpora información sobre la relación filogenética entre las especies hospedadoras.

{\ Displaystyle S_ {TD} = 2 {\ frac {\ sum \ sum _ {i }>

donde s es el número de especies hospedadoras utilizadas por un parásito y ω _ij es la distinción taxonómica entre las especies hospedadoras i y j .

Índice de variación cualitativa

Se han propuesto varios índices con este nombre.

Uno de estos es

{\ Displaystyle IQV = {\ frac {K (100 ^ {2} - \ sum _ {i = 1} ^ {K} p_ {i} ^ {2})} {100 ^ {2} (K-1) }} = {\ frac {K} {K-1}} (1- \ sum _ {i = 1} ^ {K} (p_ {i} / 100) ^ {2})}

donde K es el número de categorías y p _i es la proporción de la muestra que se encuentra en la i- ^ésima categoría.

Theil's H

Este índice también se conoce como índice de entropía multigrupo o índice de teoría de la información. Fue propuesto por Theil en 1972. ^[42] El índice es un promedio ponderado de la entropía de las muestras.

Dejar

{\ Displaystyle E_ {a} = \ sum _ {i = 1} ^ {a} p_ {i} log (p_ {i})}

y

${\ Displaystyle H = \ sum _ {i = 1} ^ {r} {\ frac {n_ {i} (E-E_ {i})} {NE}}}$

donde p _i es la proporción de tipo i en la a- ^ésima muestra, r es el número total de muestras, n _i es el tamaño de la i- ^ésima muestra, N es el tamaño de la población de la que se obtuvieron las muestras y E es la entropía de la población.

Índices para la comparación de dos o más tipos de datos dentro de una sola muestra

Varios de estos índices se han desarrollado para documentar el grado en que pueden coexistir diferentes tipos de datos de interés dentro de un área geográfica.

Índice de disimilitud

Sean A y B dos tipos de elementos de datos. Entonces el índice de disimilitud es

{\ Displaystyle D = {\ frac {1} {2}} \ sum _ {i = 1} ^ {K} \ left | {\ frac {A_ {i}} {A}} - {\ frac {B_ { i}} {B}} \ right |}

dónde

{\ Displaystyle A = \ sum _ {i = 1} ^ {K} A_ {i}}

{\ Displaystyle B = \ sum _ {i = 1} ^ {K} B_ {i}}

A _i es el número de datos de tipo A en el sitio de muestreo i , B _i es el número de datos de tipo B en el sitio de muestreo i , K es el número de sitios muestreados y || es el valor absoluto.

Este índice probablemente se conoce mejor como índice de disimilitud ( D ). ^[43] Está estrechamente relacionado con el índice de Gini.

Este índice está sesgado ya que su expectativa bajo una distribución uniforme es> 0.

Gorard y Taylor han propuesto una modificación de este índice. ^[44] Su índice (GT) es

{\ Displaystyle GT = D \ left (1 - {\ frac {A} {A + B}} \ right)}

Índice de segregación

El índice de segregación ( IS ) ^[45] es

{\ Displaystyle SI = {\ frac {1} {2}} \ sum _ {i = 1} ^ {K} \ left | {\ frac {A_ {i}} {A}} - {\ frac {t_ { i} -A_ {i}} {TA}} \ right |}

dónde

{\ Displaystyle A = \ sum _ {i = 1} ^ {K} A_ {i}}

{\ Displaystyle T = \ sum _ {i = 1} ^ {K} t_ {i}}

y K es el número de unidades, A _i y t _i es el número de tipo de datos A en la unidad i y el número total de todos los tipos de datos en la unidad i .

Índice de raíz cuadrada de Hutchen

Este índice ( H ) se define como ^[46]

{\ Displaystyle H = 1- \ sum _ {i = 1} ^ {K} \ sum _ {j = 1} ^ {i} {\ sqrt {p_ {i} p_ {j}}}}

donde p _i es la proporción de la muestra compuesta por la i- ^ésima variante.

Índice de aislamiento de Lieberson

Lieberson inventó este índice ( L _xy ) en 1981. ^[47]

{\ Displaystyle L_ {xy} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {K} {\ frac {X_ {i} Y_ {i}} {X _ {\ mathrm {tot }}}}}

donde X _i e Y _i son las variables de interés en el i- ^ésimo sitio, K es el número de sitios examinados y X _tot es el número total de variantes de tipo X en el estudio.

Índice de Bell

Este índice se define como ^[48]

{\ Displaystyle I_ {R} = {\ frac {p_ {xx} -p_ {x}} {1-p_ {x}}}}

donde p _x es la proporción de la muestra compuesta por variantes de tipo X y

{\ Displaystyle p_ {xx} = {\ frac {\ sum _ {i = 1} ^ {K} x_ {i} p_ {i}} {N_ {x}}}}

donde N _x es el número total de variantes del tipo X en el estudio, K es el número de muestras en el estudio y x _i y p _i son el número de variantes y la proporción de variantes del tipo X respectivamente en la i- ^ésima muestra .

Índice de aislamiento

El índice de aislamiento es

{\ Displaystyle II = \ sum _ {i = 1} ^ {K} {\ frac {A_ {i}} {A}} {\ frac {A_ {i}} {t_ {i}}}}

donde K es el número de unidades en el estudio, A _i y t _i es el número de unidades del tipo A y el número de todas las unidades en la i- _ésima muestra.

También se ha propuesto un índice de aislamiento modificado.

{\ displaystyle MII = {\ frac {II - {\ frac {A} {T}}} {1 - {\ frac {A} {T}}}}}

El MII se encuentra entre 0 y 1.

Índice de segregación de Gorard

Este índice (GS) se define como

{\ Displaystyle GS = {\ frac {1} {2}} \ sum _ {i = 1} ^ {K} \ left | {\ frac {A_ {i}} {A}} - {\ frac {t_ { i}} {T}} \ right |}

dónde

{\ Displaystyle A = \ sum _ {i = 1} ^ {K} A_ {i}}

{\ Displaystyle T = \ sum _ {i = 1} ^ {K} t_ {i}}

y A _i y t _i son el número de elementos de datos de tipo A y el número total de elementos en la i- ^ésima muestra.

Índice de exposición

Este índice se define como

{\ Displaystyle IE = \ sum _ {i = 1} ^ {K} {\ frac {A_ {i}} {A}} {\ frac {B_ {i}} {t_ {i}}}}

dónde

{\ Displaystyle A = \ sum _ {i = 1} ^ {K} A_ {i}}

y A _i y B _i son el número de tipos A y B en la i- ^ésima categoría y t _i es el número total de puntos de datos en la i- ^ésima categoría.

Índice de Ochai

Esta es una forma binaria del índice de coseno. ^[49] Se utiliza para comparar datos de presencia / ausencia de dos tipos de datos (aquí A y B ). Se define como

{\ Displaystyle O = {\ frac {a} {\ sqrt {(a + b) (a + c)}}}}

donde una es el número de unidades de muestra donde ambos A y B se encuentran, b es el número de unidades de muestra donde A pero no B se produce y c es el número de unidades de la muestra donde el tipo B está presente pero no de tipo A .

Coeficiente de Kulczyński

Este coeficiente fue inventado por Stanisław Kulczyński en 1927 ^[50] y es un índice de asociación entre dos tipos (aquí A y B ). Varía en valor entre 0 y 1. Se define como

{\ Displaystyle K = {\ frac {a} {2}} \ left ({\ frac {1} {a + b}} + {\ frac {1} {a + c}} \ right)}

donde a es el número de unidades de muestra donde el tipo A y el tipo B están presentes, b es el número de unidades de muestra donde el tipo A pero no el tipo B está presente yc es el número de unidades de muestra donde el tipo B está presente pero no el tipo A .

Q de Yule

Este índice fue inventado por Yule en 1900. ^[51] Se refiere a la asociación de dos tipos diferentes (aquí A y B ). Se define como

{\ Displaystyle Q = {\ frac {ad-bc} {ad + bc}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. Q varía en valor entre -1 y +1. En el caso ordinal Q se conoce como Goodman-Kruskal γ .

Debido a que el denominador potencialmente puede ser cero, Leinhert y Sporer han recomendado la adición de 1 a un , b , c y d . ^[52]

Yule's Y

Este índice se define como

{\ Displaystyle Y = {\ frac {{\ sqrt {ad}} - {\ sqrt {bc}}} {{\ sqrt {ad}} + {\ sqrt {bc}}}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes.

Coeficiente de Baroni – Urbani – Buser

Este índice fue inventado por Baroni-Urbani y Buser en 1976. ^[53] Su valor varía entre 0 y 1. Se define como

${\ Displaystyle BUB = {\ frac {{\ sqrt {ad}} + a} {{\ sqrt {ad}} + a + b + c}} = {\ frac {{\ sqrt {ad}} + a} {N + {\ sqrt {ad}} - d}} = 1 - {\ frac {N- (ad)} {N + {\ sqrt {ad}} - d}}}$

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.

Cuando d = 0, este índice es idéntico al índice de Jaccard.

Coeficiente de Hamman

Este coeficiente se define como

{\ Displaystyle H = {\ frac {(a + d) - (b + c)} {a + b + c + d}} = {\ frac {(a + d) - (b + c)} {N }}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.

Coeficiente de Rogers-Tanimoto

Este coeficiente se define como

{\ Displaystyle RT = {\ frac {a + d} {a + 2 (b + c) + d}} = {\ frac {a + d} {N + b + c}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra

Coeficiente de Sokal-Sneath

Este coeficiente se define como

{\ Displaystyle SS = {\ frac {2 (a + d)} {2 (a + d) + b + c}} = {\ frac {2 (a + d)} {N + a + d}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.

Distancia binaria de Sokal

Este coeficiente se define como

{\ Displaystyle SBD = {\ sqrt {\ frac {b + c} {a + b + c + d}}} = {\ sqrt {\ frac {b + c} {N}}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.

Coeficiente de Russel-Rao

Este coeficiente se define como

{\ Displaystyle RR = {\ frac {a} {a + b + c + d}} = {\ frac {a} {N}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.

Coeficiente phi

Este coeficiente se define como

{\ Displaystyle \ varphi = {\ frac {ad-bc} {\ sqrt {(a + b) (a + c) (b + c) (c + d)}}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes.

Coeficiente de Soergel

Este coeficiente se define como

{\ Displaystyle S = {\ frac {b + c} {b + c + d}} = {\ frac {b + c} {Na}}}

donde b es el número de muestras en las que el tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras en donde ninguno de los tipos A , ni de tipo B están presentes. N es el tamaño de la muestra.

Coeficiente de Simpson

Este coeficiente se define como

{\ Displaystyle S = {\ frac {a} {a + \ min (b, c)}}}

donde b es el número de muestras en las que el tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A .

Coeficiente de Dennis

Este coeficiente se define como

{\ Displaystyle D = {\ frac {ad-bc} {\ sqrt {(a + b + c + d) (a + b) (a + c)}}} = {\ frac {ad-bc} {\ sqrt {N (a + b) (a + c)}}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.

Coeficiente de Forbes

Este coeficiente fue propuesto por Stephen Alfred Forbes en 1907. ^[54] Se define como

{\ Displaystyle F = {\ frac {aN} {(a + b) (a + c)}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.

Alroy ha propuesto una modificación de este coeficiente ^[55].

{\ Displaystyle F_ {A} = {\ frac {a (N + {\ sqrt {N}})} {a (N + {\ sqrt {N}}) + {\ frac {3} {2}} bc}} = 1 - {\ frac {3bc} {2a (N + {\ sqrt {N}}) + 3bc}}}

Coeficiente de coincidencia simple

Este coeficiente se define como

{\ Displaystyle SM = {\ frac {a + d} {a + b + c + d}} = {\ frac {a + d} {N}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.

Coeficiente de Fossum

Este coeficiente se define como

{\ Displaystyle F = {\ frac {(a + b + c + d) (a-0.5) ^ {2}} {(a + b) (a + c)}} = {\ frac {N (a- 0.5) ^ {2}} {(a + b) (a + c)}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.

Coeficiente de Stile

Este coeficiente se define como

{\ Displaystyle S = \ log \ left [{\ frac {n (| ad-bc | - {\ frac {n} {2}}) ^ {2}} {(a + b) (a + c) ( b + d) (c + d)}} \ derecha]}

donde a es el número de muestras donde los tipos A y B están presentes, b es donde el tipo A está presente pero no el tipo B , c es el número de muestras donde el tipo B está presente pero no el tipo A , d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes, n es igual a a + b + c + d y || es el módulo (valor absoluto) de la diferencia.

Coeficiente de Michael

Este coeficiente se define como

{\ Displaystyle M = {\ frac {4 (ad-bc)} {(a + d) ^ {2} + (b + c) ^ {2}}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes.

Coeficiente de Peirce

En 1884 Charles Peirce sugirió ^[56] el siguiente coeficiente

{\ Displaystyle P = {\ frac {ab + bc} {ab + 2bc + cd}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes.

Coeficiente de Hawkin-Dotson

En 1975, Hawkin y Dotson propusieron el siguiente coeficiente

{\ Displaystyle HD = {\ frac {1} {2}} \ left ({\ frac {a} {a + b + c}} + {\ frac {d} {b + c + d}} \ right) = {\ frac {1} {2}} \ left ({\ frac {a} {Nd}} + {\ frac {d} {Na}} \ right)}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.

Coeficiente de Benini

En 1901 Benini propuso el siguiente coeficiente

{\ Displaystyle B = {\ frac {a- (a + b) (a + c)} {a + \ min (b, c) - (a + b) (a + c)}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B y C es el número de muestras en las que el tipo B está presente pero no de tipo A . Min ( b , c ) es el mínimo de b y c .

Coeficiente de Gilbert

Gilbert propuso el siguiente coeficiente

{\ Displaystyle G = {\ frac {a- (a + b) (a + c)} {a + b + c- (a + b) (a + c)}} = {\ frac {a- (a + b) (a + c)} {N- (a + b) (a + c) -d}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.

Índice de Gini

El índice de Gini es

{\ Displaystyle G = {\ frac {a- (a + b) (a + c)} {\ sqrt {(1- (a + b) ^ {2}) (1- (a + c) ^ {2 })}}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B y C es el número de muestras en las que el tipo B está presente pero no de tipo A .

Índice de Gini modificado

El índice de Gini modificado es

{\ Displaystyle G_ {M} = {\ frac {a- (a + b) (a + c)} {1 - {\ frac {| bc |} {2}} - (a + b) (a + c )}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B y C es el número de muestras en las que el tipo B está presente pero no de tipo A .

Índice de Kuhn

Kuhn propuso el siguiente coeficiente en 1965

{\ Displaystyle I = {\ frac {2 (ad-bc)} {K (2a + b + c)}} = {\ frac {2 (ad-bc)} {K (N + ad)}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B y C es el número de muestras en las que el tipo B está presente pero no de tipo A . K es un parámetro de normalización. N es el tamaño de la muestra.

Este índice también se conoce como coeficiente de medias aritméticas.

Índice de Eyraud

Eyraud propuso el siguiente coeficiente en 1936

{\ Displaystyle I = {\ frac {a- (a + b) (a + c)} {(a + c) (a + d) (b + d) (c + d)}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el número de muestras donde ni A ni B están presentes.

Distancia de Soergel

Esto se define como

{\ Displaystyle \ operatorname {SD} = {\ frac {b + c} {b + c + d}} = {\ frac {b + c} {Na}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el número de muestras donde ni A ni B están presentes. N es el tamaño de la muestra.

Índice de Tanimoto

Esto se define como

{\ Displaystyle TI = 1 - {\ frac {a} {b + c + d}} = 1 - {\ frac {a} {Na}} = {\ frac {N-2a} {Na}}}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el número de muestras donde ni A ni B están presentes. N es el tamaño de la muestra.

Índice de Piatetsky-Shapiro

Esto se define como

{\ displaystyle PSI = a-bc}

donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A .

Índices de comparación entre dos o más muestras

Índice cuantitativo de Czekanowski

Esto también se conoce como índice de Bray-Curtis , índice de Schoener, índice de porcentaje mínimo común, índice de afinidad o similitud proporcional. Está relacionado con el índice de similitud de Sørensen .

{\ Displaystyle CZI = {\ frac {\ sum \ min (x_ {i}, x_ {j})} {\ sum (x_ {i} + x_ {j})}}}

donde x _i y x _j son el número de especies en los sitios i y j respectivamente y el mínimo se toma sobre el número de especies en común entre los dos sitios.

Métrica de Canberra

La distancia de Canberra es una versión ponderada de la métrica L ₁ . Fue introducido por introducido en 1966 ^[57] y refinado en 1967 ^[58] por GN Lance y WT Williams . Se utiliza para definir una distancia entre dos vectores; en este caso, dos sitios con categorías K dentro de cada sitio.

El Canberra distancia d entre los vectores p y q en un K -dimensional verdadero espacio vectorial es

{\ Displaystyle d (\ mathbf {p}, \ mathbf {q}) = \ sum _ {i = 1} ^ {n} {\ frac {| p_ {i} -q_ {i} |} {| p_ { i} | + | q_ {i} |}}}

donde p _i y q _i son los valores de la i- ^ésima categoría de los dos vectores.

Coeficiente de comunidad de Sorensen

Se utiliza para medir similitudes entre comunidades.

{\ Displaystyle CC = {\ frac {2c} {s_ {1} + s_ {2}}}}

donde s ₁ y s ₂ son el número de especies en la comunidad 1 y 2 respectivamente y c es el número de especies comunes a ambas áreas.

Índice de Jaccard

Esta es una medida de la similitud entre dos muestras:

{\ Displaystyle J = {\ frac {A} {A + B + C}}}

donde A es el número de puntos de datos compartidos entre las dos muestras y B y C son los puntos de datos que se encuentran solo en la primera y segunda muestras respectivamente.

Este índice fue inventado en 1902 por el botánico suizo Paul Jaccard . ^[59]

Bajo una distribución aleatoria, el valor esperado de J es ^[60]

{\ Displaystyle J = {\ frac {1} {A}} \ left ({\ frac {1} {A + B + C}} \ right)}

El error estándar de este índice con el supuesto de una distribución aleatoria es

${\ Displaystyle SE (J) = {\ sqrt {\ frac {A (B + C)} {N (A + B + C) ^ {3}}}}}$

donde N es el tamaño total de la muestra.

Índice de dados

Esta es una medida de la similitud entre dos muestras:

{\ Displaystyle D = {\ frac {2A} {2A + B + C}}}

donde A es el número de puntos de datos compartidos entre las dos muestras y B y C son los puntos de datos que se encuentran solo en la primera y segunda muestras respectivamente.

Coeficiente de coincidencia

Esta es una medida de la similitud entre dos muestras:

{\ Displaystyle M = {\ frac {NBC} {N}} = 1 - {\ frac {B + C} {N}}}

donde N es el número de puntos de datos en las dos muestras y B y C son los puntos de datos que se encuentran solo en la primera y segunda muestras respectivamente.

Índice de morisita

El índice de dispersión de Morisita ( I _m ) es la probabilidad escalada de que dos puntos elegidos al azar de toda la población estén en la misma muestra. ^[61] Los valores más altos indican una distribución más agrupada.

{\ Displaystyle I_ {m} = {\ frac {\ sum x (x-1)} {nm (m-1)}}}

Una formulación alternativa es

{\ Displaystyle I_ {m} = n {\ frac {\ sum x ^ {2} - \ sum x} {\ left (\ sum x \ right) ^ {2} - \ sum x}}}

donde n es el tamaño total de la muestra, m es la media de la muestra yx son los valores individuales con la suma de toda la muestra. También es igual a

{\ Displaystyle I_ {m} = {\ frac {n \ IMC} {nm-1}}}

donde IMC es el índice de hacinamiento de Lloyd. ^[62]

Este índice es relativamente independiente de la densidad de población, pero se ve afectado por el tamaño de la muestra.

Morisita mostró que la estadística ^[61]

{\ Displaystyle I_ {m} \ left (\ sum x-1 \ right) + n- \ sum x}

se distribuye como una variable chi-cuadrado con n - 1 grados de libertad.

Se ha desarrollado una prueba de significancia alternativa para este índice para muestras grandes. ^[63]

{\ Displaystyle z = {\ frac {I_ {m} -1} {2 / nm ^ {2}}}}

donde m es la media muestral general, n es el número de unidades muestrales yz es la abscisa de distribución normal . La significancia se prueba comparando el valor de z con los valores de la distribución normal .

Índice de superposición de Morisita

El índice de superposición de Morisita se utiliza para comparar la superposición entre muestras. ^[64] El índice se basa en el supuesto de que aumentar el tamaño de las muestras aumentará la diversidad porque incluirá diferentes hábitats.

{\ Displaystyle C_ {D} = {\ frac {2 \ sum _ {i = 1} ^ {S} x_ {i} y_ {i}} {(D_ {x} + D_ {y}) XY}}}

x _i es el número de veces que la especie i está representada en el total X de una muestra.

y _i es el número de veces que la especie i está representada en el total Y de otra muestra.

D _x y D _y son el índice de Simpson valores para la x y Y muestras respectivamente.

S es el número de especies únicas

C _D = 0 si las dos muestras no se superponen en términos de especies, y C _D = 1 si las especies se encuentran en las mismas proporciones en ambas muestras.

Horn introdujo una modificación del índice ^[65]

{\ Displaystyle C_ {H} = {\ frac {2 \ sum _ {i = 1} ^ {S} x_ {i} y_ {i}} {\ left ({\ sum _ {i = 1} ^ {S } x_ {i} ^ {2} \ over X ^ {2}} + {\ sum _ {i = 1} ^ {S} y_ {i} ^ {2} \ over Y ^ {2}} \ right) XY}}}

Índice de Morisita estandarizado

Smith-Gill desarrolló una estadística basada en el índice de Morisita que es independiente tanto del tamaño de la muestra como de la densidad de población y está limitada por -1 y +1. Esta estadística se calcula de la siguiente manera ^[66]

Primero determine el índice de Morisita ( I _d ) de la manera habitual. Entonces sea k el número de unidades de las que se muestreó la población. Calcule los dos valores críticos

{\ Displaystyle M_ {u} = {\ frac {\ chi _ {0.975} ^ {2} -k + \ sum x} {\ sum x-1}}}

{\ Displaystyle M_ {c} = {\ frac {\ chi _ {0.025} ^ {2} -k + \ sum x} {\ sum x-1}}}

donde χ ² es el valor de chi cuadrado para n - 1 grados de libertad en los niveles de confianza del 97,5% y el 2,5%.

Luego, el índice estandarizado ( I _p ) se calcula a partir de una de las fórmulas siguientes

Cuando yo _d ≥ M _c > 1

{\ Displaystyle I_ {p} = 0.5 + 0.5 \ left ({\ frac {I_ {d} -M_ {c}} {k-M_ {c}}} \ right)}

Cuando M _c > I _d ≥ 1

{\ Displaystyle I_ {p} = 0.5 \ left ({\ frac {I_ {d} -1} {M_ {u} -1}} \ right)}

Cuando 1> I _d ≥ M _u

{\ Displaystyle I_ {p} = - 0.5 \ left ({\ frac {I_ {d} -1} {M_ {u} -1}} \ right)}

Cuando 1> M _u > I _d

{\ Displaystyle I_ {p} = - 0.5 + 0.5 \ left ({\ frac {I_ {d} -M_ {u}} {M_ {u}}} \ right)}

I _p varía entre +1 y -1 con intervalos de confianza del 95% de ± 0,5. I _p tiene el valor de 0 si el patrón es aleatorio; si el patrón es uniforme, I _p <0 y si el patrón muestra agregación, I _p > 0.

Índices de uniformidad de Peet

Estos índices son una medida de uniformidad entre muestras. ^[67]

{\ Displaystyle E_ {1} = {\ frac {I-I _ {\ min}} {I _ {\ max} -I _ {\ min}}}}

{\ Displaystyle E_ {2} = {\ frac {I} {I _ {\ max}}}}

donde I es un índice de diversidad, I _max e I _min son los valores máximo y mínimo de I entre las muestras que se comparan.

Coeficiente de Loevinger

Loevinger ha sugerido un coeficiente H definido de la siguiente manera:

{\ Displaystyle H = {\ sqrt {\ frac {p _ {\ max} (1-p _ {\ min})} {p _ {\ min} (1-p _ {\ max})}}}}

donde p _max y p _min son las proporciones máxima y mínima en la muestra.

Índice de Tversky

El índice de Tversky ^[68] es una medida asimétrica que se encuentra entre 0 y 1.

Para las muestras A y B, el índice de Tversky ( S ) es

{\ Displaystyle S = {\ frac {| A \ cap B |} {| A \ cap B | + \ alpha | AB | + \ beta | BA |}}}

Los valores de α y β son arbitrarios. Establecer tanto α como β en 0,5 da el coeficiente de Dice . Establecer ambos en 1 da el coeficiente de Tanimoto .

También se ha propuesto una variante simétrica de este índice. ^[69]

{\ Displaystyle S_ {1} = {\ frac {| A \ cap B |} {| A \ cap B | + \ beta \ left (\ alpha a + (1- \ alpha) b \ right)}}}

dónde

{\ Displaystyle a = \ min \ left (| XY |, | YX | \ right)}

{\ Displaystyle b = \ max \ left (| XY |, | YX | \ right)}

Se han propuesto varios índices similares.

Monostori y col. propuso el índice de similitud simétrica ^[70]

{\ Displaystyle SS (A, B) = {\ frac {| d (A) \ cap d (B) |} {| d (A) + d (B) |}}}

donde d ( X ) es alguna medida de derivado de X .

Bernstein y Zobel han propuesto los índices S2 y S3 ^[71]

{\ Displaystyle S2 = {\ frac {| d (A) \ cap d (B) |} {\ min (| d (A) |, | d (B)) |}}}

{\ Displaystyle S3 = {\ frac {2 | d (A) \ cap d (B) |} {| d (A) + d (B) |}}}

S3 es simplemente el doble del índice SymmetricSimilarity. Ambos están relacionados con el coeficiente de Dice

Métricas utilizadas

Se han propuesto varias métricas (distancias entre muestras).

distancia euclidiana

Si bien esto se usa generalmente en trabajo cuantitativo, también se puede usar en trabajo cualitativo. Esto se define como

{\ Displaystyle d_ {jk} = {\ sqrt {\ sum _ {i = 1} ^ {N} (x_ {ij} -x_ {ik}) ^ {2}}}}

donde d _jk es la distancia entre x _ij y x _ik .

La distancia de Gower

Esto se define como

{\ Displaystyle GD = {\ frac {\ Sigma _ {i = 1} ^ {n} w_ {i} d_ {i}} {\ Sigma _ {i = 1} ^ {n} w_ {i}}}}

donde d _i es la distancia entre las i- ^ésimas muestras y w _i es el peso dado a la i- ^ésima distancia.

Distancia de Manhattan

Si bien esto se usa más comúnmente en el trabajo cuantitativo, también se puede usar en el trabajo cualitativo. Esto se define como

{\ Displaystyle d_ {jk} = \ sum _ {i = 1} ^ {N} | x_ {ij} -x_ {ik} |}

donde d _jk es la distancia entre x _ij y x _ik y || es el valor absoluto de la diferencia entre x _ij y x _ik .

Se puede usar una versión modificada de la distancia de Manhattan para encontrar un cero ( raíz ) de un polinomio de cualquier grado usando el método de Lill .

La distancia de Prevosti

Esto está relacionado con la distancia de Manhattan. Fue descrito por Prevosti et al. y se utilizó para comparar diferencias entre cromosomas . ^[72] Sean P y Q dos conjuntos de r distribuciones de probabilidad finitas. Dejemos que estas distribuciones tengan valores divididos en k categorías. Entonces la distancia D _PQ es

{\ Displaystyle D_ {PQ} = {\ frac {1} {r}} \ sum _ {j = 1} ^ {r} \ sum _ {i = 1} ^ {k} | p_ {ji} -q_ { ji} |}

donde r es el número de distribuciones de probabilidad discretas en cada población, k _j es el número de categorías en las distribuciones P _j y Q _j y p _ji (respectivamente q _ji ) es la probabilidad teórica de la categoría i en la distribución P _j ( Q _j ) en la población P ( Q ).

Sus propiedades estadísticas fueron examinadas por Sánchez et al. ^[73] quien recomendó un procedimiento de arranque para estimar los intervalos de confianza al probar las diferencias entre las muestras.

Otras métricas

Dejar

{\ Displaystyle A = \ sum x_ {ij}}

{\ Displaystyle B = \ sum x_ {ik}}

{\ Displaystyle J = \ sum \ min (x_ {ij}, x_ {jk})}

donde min ( x , y ) es el valor menor del par x y y .

Luego

{\ Displaystyle d_ {jk} = A + B-2J}

es la distancia de Manhattan,

{\ Displaystyle d_ {jk} = {\ frac {A + B-2J} {A + B}}}

es la distancia de Bray-Curtis,

{\ Displaystyle d_ {jk} = {\ frac {A + B-2J} {A + BJ}}}

es la distancia de Jaccard (o Ruzicka) y

{\ Displaystyle d_ {jk} = 1 - {\ frac {1} {2}} \ left ({\ frac {J} {A}} + {\ frac {J} {B}} \ right)}

es la distancia de Kulczynski.

Similitudes entre textos

HaCohen-Kerner y col. han propuesto una variedad de métricas para comparar dos o más textos. ^[74]

Datos ordinales

Si las categorías son al menos ordinales, se pueden calcular otros índices.

D de Leik

La medida de dispersión de Leik ( D ) es uno de esos índices. ^[75] Que haya K categorías y sea p _i ser f _i / N , donde f _i es el número en el i ^ésimo categoría y dejar que las categorías disponerse en orden ascendente. Dejar

{\ Displaystyle c_ {a} = \ sum _ {i = 1} ^ {a} p_ {i}}

donde un ≤ K . Sea d _a = c _a si c _a ≤ 0.5 y 1 - c _a ≤ 0.5 en caso contrario. Luego

{\ Displaystyle D = 2 \ sum _ {a = i} ^ {K} {\ frac {d_ {a}} {K-1}}}

Medida de Herfindahl normalizada

Este es el cuadrado del coeficiente de variación dividido por N - 1 donde N es el tamaño de la muestra.

{\ Displaystyle H = {\ frac {1} {N-1}} {\ frac {s ^ {2}} {m ^ {2}}}}

donde m es la media y s es la desviación estándar.

Índice de potencial de conflicto

El índice de potencial de conflicto (PCI) describe la proporción de puntuación a cada lado del punto central de una escala de calificación. ^[76] Este índice requiere al menos datos ordinales. Esta relación a menudo se muestra como un gráfico de burbujas .

El PCI utiliza una escala ordinal con un número impar de puntos de calificación (- n a + n ) centrados en 0. Se calcula de la siguiente manera

{\ Displaystyle PCI = {\ frac {X_ {t}} {Z}} \ left [1- \ left | {\ frac {\ sum _ {i = 1} ^ {r _ {+}} X _ {+}} {X_ {t}}} - {\ frac {\ sum _ {i = 1} ^ {r _ {-}} X _ {-}} {X_ {t}}} \ right | \ right]}

donde Z = 2 n , | · | es el valor absoluto (módulo), r ₊ es el número de respuestas en el lado positivo de la escala, r _- es el número de respuestas en el lado negativo de la escala, X ₊ son las respuestas en el lado positivo de la escala , X _- son las respuestas en el lado negativo de la escala y

{\ Displaystyle X_ {t} = \ sum _ {i = 1} ^ {r _ {+}} | X _ {+} | + \ sum _ {i = 1} ^ {r _ {-}} | X _ {-} |}

Se sabe que existen dificultades teóricas con el PCI. El PCI se puede calcular solo para escalas con un punto central neutral y un número igual de opciones de respuesta a cada lado. Además, una distribución uniforme de respuestas no siempre produce el punto medio de la estadística PCI, sino que varía con el número de posibles respuestas o valores en la escala. Por ejemplo, las escalas de cinco, siete y nueve puntos con una distribución uniforme de respuestas dan PCI de 0,60, 0,57 y 0,50 respectivamente.

El primero de estos problemas es relativamente menor, ya que la mayoría de las escalas ordinales con un número par de respuestas se pueden ampliar (o reducir) en un solo valor para dar un número impar de posibles respuestas. Por lo general, la escala se puede actualizar si es necesario. El segundo problema es más difícil de resolver y puede limitar la aplicabilidad del PCI.

El PCI se ha ampliado ^[77]

{\ Displaystyle PCI_ {2} = {\ frac {\ sum _ {i = 1} ^ {K} \ sum _ {j = 1} ^ {i} k_ {i} k_ {j} d_ {ij}} { \ delta}}}

donde K es el número de categorías, k _i es el número en la i- ^ésima categoría, d _ij es la distancia entre la i- ^ésima y la i- ^ésima categoría, y δ es la distancia máxima en la escala multiplicada por el número de veces que puede ocurren en la muestra. Para una muestra con un número par de puntos de datos

{\ Displaystyle \ delta = {\ frac {N ^ {2}} {2}} d _ {\ max}}

y para una muestra con un número impar de puntos de datos

{\ Displaystyle \ delta = {\ frac {N ^ {2} -1} {2}} d _ {\ max}}

donde N es el número de puntos de datos en la muestra yd _max es la distancia máxima entre puntos en la escala.

Vaske y col. Sugiera una serie de posibles medidas de distancia para su uso con este índice. ^[77]

{\ Displaystyle D_ {1}: d_ {ij} = | r_ {i} -r_ {j} | -1}

si los signos (+ o -) de r _i y r _j difieren. Si los signos son los mismos d _ij = 0.

{\ Displaystyle D_ {2}: d_ {ij} = | r_ {i} -r_ {j} |}

{\ Displaystyle D_ {3}: d_ {ij} = | r_ {i} -r_ {j} | ^ {p}}

donde p es un número real arbitrario> 0.

{\ Displaystyle Dp_ {ij}: d_ {ij} = [| r_ {i} -r_ {j} | - (m-1)] ^ {p}}

si signo ( r _i ) ≠ signo ( r _i ) yp es un número real> 0. Si los signos son los mismos, entonces d _ij = 0. m es D ₁ , D ₂ o D ₃ .

La diferencia entre D ₁ y D ₂ es que el primero no incluye neutrales en la distancia mientras que el segundo sí. Por ejemplo, los encuestados con una puntuación de -2 y +1 tendrían una distancia de 2 en D ₁ y 3 en D ₂ .

El uso de una potencia ( p ) en las distancias permite reescalar las respuestas extremas. Estas diferencias se pueden resaltar con p > 1 o disminuir con p <1.

En simulaciones con variantes extraídas de una distribución uniforme, el PCI ₂ tiene una distribución unimodal simétrica. ^[77] Las colas de su distribución son más grandes que las de una distribución normal.

Vaske y col. Sugiera el uso de una prueba t para comparar los valores de PCI entre muestras si los PCI se distribuyen aproximadamente normalmente.

A de van der Eijk

Esta medida es un promedio ponderado del grado de concordancia de la distribución de frecuencias. ^[78] A varía de -1 ( bimodalidad perfecta ) a +1 ( unimodalidad perfecta ). Se define como

{\ Displaystyle A = U \ left (1 - {\ frac {S-1} {K-1}} \ right)}

donde U es la unimodalidad de la distribución, S el número de categorías que tienen frecuencias distintas de cero y K el número total de categorías.

El valor de U es 1 si la distribución tiene alguna de las tres características siguientes:

todas las respuestas están en una sola categoría
las respuestas se distribuyen uniformemente entre todas las categorías
las respuestas se distribuyen uniformemente entre dos o más categorías contiguas, con las otras categorías con cero respuestas

Con distribuciones distintas a estas, los datos deben dividirse en "capas". Dentro de una capa, las respuestas son iguales o nulas. No es necesario que las categorías sean contiguas. Se calcula un valor de A para cada capa ( A _i ) y se determina un promedio ponderado para la distribución. Los pesos ( w _i ) para cada capa son el número de respuestas en esa capa. En simbolos

{\ Displaystyle A _ {\ mathrm {general}} = \ sum w_ {i} A_ {i}}

Una distribución uniforme tiene A = 0: cuando todas las respuestas caen en una categoría A = +1.

Un problema teórico con este índice es que supone que los intervalos están igualmente espaciados. Esto puede limitar su aplicabilidad.

Estadísticas relacionadas

Problema de cumpleaños

Si hay n unidades en la muestra y se distribuyen aleatoriamente en k categorías ( n ≤ k ), esto puede considerarse una variante del problema de cumpleaños . ^[79] La probabilidad ( p ) de que todas las categorías tengan una sola unidad es

{\ Displaystyle p = \ prod _ {i = 1} ^ {n} \ left (1 - {\ frac {i} {k}} \ right)}

Si c es grande yn es pequeño en comparación con k ^2/3, entonces con una buena aproximación

{\ Displaystyle p = \ exp \ left ({\ frac {-n ^ {2}} {2k}} \ right)}

Esta aproximación se deriva de la fórmula exacta de la siguiente manera:

{\ Displaystyle \ log _ {e} \ left (1 - {\ frac {i} {k}} \ right) \ approx - {\ frac {i} {k}}}

Estimaciones del tamaño de la muestra

Para p = 0.5 yp = 0.05 respectivamente, las siguientes estimaciones de n pueden ser útiles

{\ Displaystyle n = 1.2 {\ sqrt {k}}}

{\ Displaystyle n = 2.448 {\ sqrt {k}} \ approx 2.5 {\ sqrt {k}}}

Este análisis se puede extender a múltiples categorías. Para p = 0.5 yp 0.05 tenemos respectivamente

{\ Displaystyle n = 1.2 {\ sqrt {\ frac {1} {\ sum _ {i = 1} ^ {k} {\ frac {1} {c_ {i}}}}}}}

{\ Displaystyle n \ approx 2.5 {\ sqrt {\ frac {1} {\ sum _ {i = 1} ^ {k} {\ frac {1} {c_ {i}}}}}}}

donde c _i es el tamaño de la i- ^ésima categoría. Este análisis asume que las categorías son independientes.

Si los datos están ordenados de alguna manera, entonces para al menos un evento que ocurre en dos categorías que se encuentran dentro de j categorías entre sí, una probabilidad de 0.5 o 0.05 requiere un tamaño de muestra ( n ) respectivamente de ^[80]

{\ Displaystyle n = 1.2 {\ sqrt {\ frac {k} {2j + 1}}}}

{\ Displaystyle n \ approx 2.5 {\ sqrt {\ frac {k} {2j + 1}}}}

donde k es el número de categorías.

Problema del día de cumpleaños-muerte

Se ha investigado si existe o no una relación entre los cumpleaños y los días de defunción con la estadística ^[81]

{\ Displaystyle - \ log _ {10} \ left ({\ frac {1 + 2d} {365}} \ right),}

donde d es el número de días del año entre el cumpleaños y el día de la muerte.

Índice Rand

El índice Rand se utiliza para probar si dos o más sistemas de clasificación concuerdan en un conjunto de datos. ^[82]

Dado un conjunto de ${\ Displaystyle n}$ elementos ${\ Displaystyle S = \ {o_ {1}, \ ldots, o_ {n} \}}$ y dos particiones de ${\ Displaystyle S}$ comparar, ${\ Displaystyle X = \ {X_ {1}, \ ldots, X_ {r} \}}$ , una partición de S en r subconjuntos, y ${\ Displaystyle Y = \ {Y_ {1}, \ ldots, Y_ {s} \}}$ , una partición de S en subconjuntos s , defina lo siguiente:

${\ Displaystyle a}$ , el número de pares de elementos en ${\ Displaystyle S}$ que están en el mismo subconjunto en ${\ Displaystyle X}$ y en el mismo subconjunto en ${\ Displaystyle Y}$
${\ Displaystyle b}$ , el número de pares de elementos en ${\ Displaystyle S}$ que se encuentran en diferentes subconjuntos en ${\ Displaystyle X}$ y en diferentes subconjuntos en ${\ Displaystyle Y}$
${\ Displaystyle c}$ , el número de pares de elementos en ${\ Displaystyle S}$ que están en el mismo subconjunto en ${\ Displaystyle X}$ y en diferentes subconjuntos en ${\ Displaystyle Y}$
${\ Displaystyle d}$ , el número de pares de elementos en ${\ Displaystyle S}$ que se encuentran en diferentes subconjuntos en ${\ Displaystyle X}$ y en el mismo subconjunto en ${\ Displaystyle Y}$

El índice Rand - ${\ Displaystyle R}$ - Se define como

{\ Displaystyle R = {\ frac {a + b} {a + b + c + d}} = {\ frac {a + b} {n \ elige 2}}}

Intuitivamente, ${\ Displaystyle a + b}$ puede considerarse como el número de acuerdos entre ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ y ${\ Displaystyle c + d}$ como el número de desacuerdos entre ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ .

Índice de Rand ajustado

El índice Rand ajustado es la versión corregida por azar del índice Rand. ^[82]^[83]^[84] Aunque el índice Rand solo puede arrojar un valor entre 0 y +1, el índice Rand ajustado puede generar valores negativos si el índice es menor que el índice esperado. ^[85]

La mesa de contingencia

Dado un conjunto ${\ Displaystyle S}$ de ${\ Displaystyle n}$ elementos, y dos agrupaciones o particiones ( por ejemplo, agrupaciones) de estos puntos, a saber ${\ Displaystyle X = \ {X_ {1}, X_ {2}, \ ldots, X_ {r} \}}$ y ${\ Displaystyle Y = \ {Y_ {1}, Y_ {2}, \ ldots, Y_ {s} \}}$ , la superposición entre ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ se puede resumir en una tabla de contingencia ${\ Displaystyle \ left [n_ {ij} \ right]}$ donde cada entrada ${\ Displaystyle n_ {ij}}$ denota el número de objetos en común entre ${\ Displaystyle X_ {i}}$ y ${\ Displaystyle Y_ {j}}$ : ${\ Displaystyle n_ {ij} = | X_ {i} \ cap Y_ {j} |}$ .

X \ Y	${\ Displaystyle Y_ {1}}$	${\ Displaystyle Y_ {2}}$	${\ Displaystyle \ ldots}$	${\ Displaystyle Y_ {s}}$	Sumas
${\ Displaystyle X_ {1}}$	${\ Displaystyle n_ {11}}$	${\ Displaystyle n_ {12}}$	${\ Displaystyle \ ldots}$	${\ Displaystyle n_ {1s}}$	${\ Displaystyle a_ {1}}$
${\ Displaystyle X_ {2}}$	${\ Displaystyle n_ {21}}$	${\ Displaystyle n_ {22}}$	${\ Displaystyle \ ldots}$	${\ Displaystyle n_ {2s}}$	${\ Displaystyle a_ {2}}$
${\ Displaystyle \ vdots}$	${\ Displaystyle \ vdots}$	${\ Displaystyle \ vdots}$	${\ Displaystyle \ ddots}$	${\ Displaystyle \ vdots}$	${\ Displaystyle \ vdots}$
${\ Displaystyle X_ {r}}$	${\ Displaystyle n_ {r1}}$	${\ Displaystyle n_ {r2}}$	${\ Displaystyle \ ldots}$	${\ Displaystyle n_ {rs}}$	${\ Displaystyle a_ {r}}$
Sumas	${\ Displaystyle b_ {1}}$	${\ Displaystyle b_ {2}}$	${\ Displaystyle \ ldots}$	${\ Displaystyle b_ {s}}$

Definición

La forma ajustada del Índice Rand, el Índice Rand Ajustado, es

{\ displaystyle {\ text {AdjustedIndex}} = {\ frac {{\ text {Index}} - {\ text {ExpectedIndex}}} {{\ text {MaxIndex}} - {\ text {ExpectedIndex}}}}, }

más específicamente

{\ Displaystyle {\ text {ARI}} = {\ frac {\ sum _ {ij} {\ binom {n_ {ij}} {2}} - \ left. \ left [\ sum _ {i} {\ binom {a_ {i}} {2}} \ sum _ {j} {\ binom {b_ {j}} {2}} \ right] \ right / {\ binom {n} {2}}} {{\ frac {1} {2}} \ left [\ sum _ {i} {\ binom {a_ {i}} {2}} + \ sum _ {j} {\ binom {b_ {j}} {2}} \ derecha] - \ izquierda. \ izquierda [\ sum _ {i} {\ binom {a_ {i}} {2}} \ sum _ {j} {\ binom {b_ {j}} {2}} \ right] \ right / {\ binom {n} {2}}}}}

dónde ${\ Displaystyle n_ {ij}, a_ {i}, b_ {j}}$ son valores de la tabla de contingencia.

Dado que el denominador es el número total de pares, el índice Rand representa la frecuencia de ocurrencia de acuerdos sobre el total de pares, o la probabilidad de que ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ acordará un par elegido al azar.

Evaluación de índices

Los diferentes índices dan diferentes valores de variación y pueden usarse para diferentes propósitos: varios se usan y critican especialmente en la literatura sociológica.

Si uno desea simplemente hacer comparaciones ordinales entre muestras (es una muestra más o menos variada que otra), la elección de IQV es relativamente menos importante, ya que a menudo darán el mismo orden.

Cuando los datos son ordinales, un método que puede ser útil para comparar muestras es ORDANOVA .

En algunos casos es útil no estandarizar un índice para que se ejecute de 0 a 1, independientemente del número de categorías o muestras ( Wilcox 1973 , págs. 338), pero generalmente así se estandariza.

Ver también

ANOSIM
Índice gamma de Baker
Datos categóricos
Índice de diversidad
Índice Fowlkes-Mallows
La gamma de Goodman y Kruskal
Entropía de la información
Distribución logarítmica
PERMANOVA
Métrica de Robinson-Foulds
Diagrama de Shepard
SONRISA BOBA
Dispersión estadística
Razón de variación
Índice de Whipple

Notas

^ Esto solo puede suceder si el número de casos es un múltiplo del número de categorías.
^ Freemen LC (1965) Estadísticas aplicadas elementales . Nueva York: John Wiley and Sons págs. 40–43
^ Kendal MC, Stuart A (1958) La teoría avanzada de estadística. Hafner Publishing Company p. 46
^ Mueller JE, Schuessler KP (1961) Razonamiento estadístico en sociología. Boston: Compañía Houghton Mifflin. págs. 177-179
[[[Wikipedia:Citing_sources|page needed]]="this_citation_requires_a_reference_to_the_specific_page_or_range_of_pages_in_which_the_material_appears. (may_2020)">]-5">^ Wilcox (1967) , pág. ^{[ página necesaria ]} .
^ Kaiser HF (1968) "Una medida de la calidad de la población de la distribución legislativa". The American Political Science Review 62 (1) 208
^ Joel Gombin (18 de agosto de 2015). "qualvar: lanzamiento inicial (versión v0.1)" . Zenodo . doi : 10.5281 / zenodo.28341 .
^ Gibbs y Poston Jr (1975) .
^ Lieberson (1969) , p. 851.
^ IQV en xycoon
^ Hunter, PR; Gaston, MA (1988). "Índice numérico de la capacidad discriminatoria de los sistemas de tipificación: una aplicación del índice de diversidad de Simpson". J Clin Microbiol . 26 (11): 2465–2466.
^ Friedman WF (1925) La incidencia de la coincidencia y sus aplicaciones en el criptoanálisis. Documento técnico. Oficina del director de señales. Oficina de Imprenta del Gobierno de los Estados Unidos.
^ Gini CW (1912) Variabilidad y mutabilidad, contribución al estudio de distribuciones y relaciones estadísticas. Studi Economico-Giuricici della R. Universita de Cagliari
^ Simpson, EH (1949). "Medida de la diversidad" . Naturaleza . 163 (4148): 688. doi : 10.1038 / 163688a0 .
^ Bachi R (1956) Un análisis estadístico del resurgimiento del hebreo en Israel. En: Bachi R (ed) Scripta Hierosolymitana, Vol III, Jerusalem: Magnus press pp 179–247
^ Mueller JH, Schuessler KF (1961) Razonamiento estadístico en sociología. Boston: Houghton Mifflin
^ Gibbs, JP; Martin, WT (1962). "Urbanización, tecnología y división del trabajo: patrones internacionales". American Sociological Review . 27 (5): 667–677. doi : 10.2307 / 2089624 . JSTOR 2089624 .
[[[Wikipedia:Citing_sources|page needed]]="this_citation_requires_a_reference_to_the_specific_page_or_range_of_pages_in_which_the_material_appears. (may_2020)">]-18">^ Lieberson (1969) , p. ^{[ página necesaria ]} .
^ Blau P (1977) Desigualdad y heterogeneidad. Free Press, Nueva York
^ Perry M, Kader G (2005) Variación como unalikeability. Estadísticas de enseñanza 27 (2) 58–60
^ Greenberg, JH (1956). "La medición de la diversidad lingüística". Idioma . 32 (1): 109-115. doi : 10.2307 / 410659 . JSTOR 410659 .
^ Tesis doctoral de Lautard EH (1978). ^{[ se necesita cita completa ]}
^ Berger, WH; Parker, FL (1970). "Diversidad de forameníferos planctónicos en sedimentos de aguas profundas". Ciencia . 168 (3937): 1345-1347. doi : 10.1126 / science.168.3937.1345 . PMID 17731043 .
^ a b Hill, MO (1973). "Diversidad y uniformidad: una notación unificadora y sus consecuencias". Ecología . 54 (2): 427–431. doi : 10.2307 / 1934352 . JSTOR 1934352 .
^ Margalef R (1958) Sucesión temporal y heterogeneidad espacial en el fitoplancton. En: Perspectivas en biología marina. Buzzati-Traverso (ed.) Univ Calif Press, Berkeley págs. 323–347
^ Menhinick, EF (1964). "Una comparación de algunos índices de diversidad de especies-individuos aplicados a muestras de insectos de campo". Ecología . 45 (4): 859–861. doi : 10.2307 / 1934933 . JSTOR 1934933 .
^ Kuraszkiewicz W (1951) Nakladen Wroclawskiego Towarzystwa Naukowego
^ Guiraud P (1954) Les caractères statistiques du vocabulaire. Prensas Universitaires de France, París
^ Panas E (2001) The Generalized Torquist: Especificación y estimación de una nueva función de tamaño de vocabulario-texto. J Quant Ling 8 (3) 233–252
^ Kempton, RA; Taylor, LR (1976). "Modelos y estadísticas de diversidad de especies". Naturaleza . 262 (5571): 818–820. doi : 10.1038 / 262818a0 .
^ Hutcheson K (1970) Una prueba para comparar diversidades basada en la fórmula de Shannon. J Theo Biol 29: 151-154
^ Fisher RA, Corbet A, Williams CB (1943) La relación entre el número de especies y el número de individuos en una muestra aleatoria de una población animal. Animal Ecol 12: 42–58
^ Anscombe (1950) Teoría de muestreo de las distribuciones de series binomiales y logarítmicas negativas. Biometrika 37: 358–382
^ Fuerte, WL (2002). "Evaluación de la desigualdad de abundancia de especies dentro y entre comunidades de plantas". Ecología comunitaria . 3 (2): 237–246. doi : 10.1556 / comec.3.2002.2.9 .
^ Camargo JA (1993) ¿Debe aumentar la dominancia con el número de especies subordinadas en interacciones competitivas? J. Theor Biol 161537–542
^ Smith, Wilson (1996)^{[ cita completa necesaria ]}
^ Bulla, L. (1994). "Un índice de uniformidad y su medida de diversidad asociada". Oikos . 70 (1): 167-171. doi : 10.2307 / 3545713 . JSTOR 3545713 .
^ Horn, HS (1966). "Medición de 'superposición' en estudios ecológicos comparativos". Soy Nat . 100 (914): 419–423. doi : 10.1086 / 282436 .
^ Siegel, Andrew F (2006) "Curvas de rarefacción". Enciclopedia de Ciencias Estadísticas 10.1002 / 0471667196.ess2195.pub2.
^ Caswell H (1976) Estructura de la comunidad: un análisis de modelo neutral. Ecol Monogr 46: 327–354
^ Poulin, R; Mouillot, D (2003). "La especialización de parásitos desde una perspectiva filogenética: un nuevo índice de especificidad de acogida". Parasitología . 126 (5): 473–480. CiteSeerX 10.1.1.574.7432 . doi : 10.1017 / s0031182003002993 .
^ Theil H (1972) Análisis de descomposición estadística. Ámsterdam: North-Holland Publishing Company>
^ Duncan OD, Duncan B (1955) Un análisis metodológico de los índices de segregación. Am Sociol Review, 20: 210–217
^ Gorard S, Taylor C (2002b) ¿Qué es la segregación? Una comparación de medidas en términos de invariancia composicional "fuerte" y "débil". Sociología, 36 (4), 875–895
^ Massey, DS; Denton, NA (1988). "Las dimensiones de la segregación residencial" . Fuerzas sociales . 67 (2): 281–315. doi : 10.1093 / sf / 67.2.281 .
^ Hutchens RM (2004) Una medida de segregación. Revista Económica Internacional 45: 555–578
^ Lieberson S (1981). "Un enfoque asimétrico de la segregación". En Peach C, Robinson V, Smith S (eds.). Segregación étnica en las ciudades . Londres: Croom Helm. págs. 61–82.
^ Bell, W (1954). "Un modelo de probabilidad para la medición de la segregación ecológica". Fuerzas sociales . 32 (4): 357–364. doi : 10.2307 / 2574118 . JSTOR 2574118 .
^ Ochiai A (1957) Estudios zoogeográficos sobre los peces soleoides encontrados en Japón y sus regiones vecinas. Bull Jpn Soc Sci Fish 22: 526–530
^ Kulczynski S (1927) Die Pflanzenassoziationen der Pieninen. Bulletin International de l'Académie Polonaise des Sciences et des Lettres, Classe des Sciences
^ Yule GU (1900) sobre la asociación de atributos en estadística. Philos Trans Roy Soc
^ Lienert GA y Sporer SL (1982) Interkorrelationen seltner Symptome mittels Nullfeldkorrigierter YuleKoeffizienten. Psychologische Beitrage 24: 411–418
^ Baroni-Urbani, C; Buser, MW (1976). "similitud de datos binarios". Biología sistemática . 25 (3): 251-259. doi : 10.2307 / 2412493 . JSTOR 2412493 .
^ Forbes SA (1907) sobre la distribución local de ciertos peces de Illinois: un ensayo sobre ecología estadística. Boletín del Laboratorio de Historia Natural del Estado de Illinois 7: 272–303
^ Alroy J (2015) Un nuevo giro en un coeficiente de similitud binaria muy antiguo. Ecología 96 (2) 575-586
^ Carl R. Hausman y Douglas R. Anderson (2012). Conversaciones sobre Peirce: Reales e ideales . Prensa de la Universidad de Fordham. pag. 221. ISBN 9780823234677.
^ Lance, GN; Williams, WT (1966). "Programas informáticos para clasificación politética jerárquica (" análisis de similitud ")" . Revista informática . 9 (1): 60–64. doi : 10.1093 / comjnl / 9.1.60 .
^ Lance, GN; Williams, WT (1967). "Programas clasificatorios de datos mixtos I.) Sistemas aglomerativos". Australian Computer Journal : 15-20.
^ Jaccard P (1902) Lois de distribution florale. Bulletin de la Socíeté Vaudoise des Sciences Naturelles 38: 67-130
^ Archer AW y Maples CG (1989) Respuesta de coeficientes binomiales seleccionados a diversos grados de escasez de matrices y matrices con interrelaciones de datos conocidas. Geología matemática 21: 741–753
^ a b Morisita M (1959) Midiendo la dispersión y el análisis de patrones de distribución. Memorias de la Facultad de Ciencias, Serie de la Universidad de Kyushu E. Biol 2: 215–235
^ Lloyd M (1967) Significa hacinamiento. J Anim Ecol 36: 1–30
^ Pedigo LP & Buntin GD (1994) Manual de métodos de muestreo para artrópodos en agricultura. CRC Boca Raton FL
^ Morisita M (1959) Medición de la dispersión y análisis de patrones de distribución. Memorias de la Facultad de Ciencias, Universidad de Kyushu, Serie E Biología. 2: 215-235
^ Horn, HS (1966). "Medición de" Superposición "en estudios ecológicos comparativos". El naturalista estadounidense . 100 (914): 419–424. doi : 10.1086 / 282436 .
^ Smith-Gill SJ (1975). "Base citofisiológica de patrones pigmentarios disruptivos en la rana leopardo Rana pipiens . II. Patrones específicos de células mutantes y de tipo salvaje". J Morphol . 146 : 35–54.
^ Peet (1974) Las medidas de diversidad de especies. Annu Rev Ecol Syst 5: 285–307
^ Tversky, Amos (1977). "Características de la similitud" (PDF) . Revisión psicológica . 84 (4): 327–352. doi : 10.1037 / 0033-295x.84.4.327 .
^ Jimenez S, Becerra C, Gelbukh A SOFTCARDINALITY-CORE: Mejorar la superposición del texto con medidas de distribución para la similitud textual semántica. Segunda Conferencia Conjunta sobre Semántica Léxica y Computacional (* SEM), Volumen 1: Actas de la conferencia principal y la tarea compartida: similitud textual semántica, p194-201. 7 al 8 de junio de 2013, Atlanta, Georgia, EE. UU.
^ Monostori K, Finkel R, Zaslavsky A, Hodasz G y Patke M (2002) Comparación de técnicas de detección de superposición. En: Actas de la Conferencia Internacional de Ciencias Computacionales de 2002. Notas de clase en Ciencias de la Computación 2329: 51-60
^ Bernstein Y y Zobel J (2004) Un sistema escalable para identificar documentos co-derivados. En: Actas de la 11a Conferencia internacional sobre procesamiento de cadenas y recuperación de información (SPIRE) 3246: 55-67
^ Prevosti, A; Ribo, G; Serra, L; Aguade, M; Balanya, J; Monclus, M; Mestres, F (1988). "Colonización de América por Drosophila subobscura : experimento en poblaciones naturales que apoya el papel adaptativo del polimorfismo de inversión cromosómica" . Proc Natl Acad Sci USA . 85 (15): 5597–5600. doi : 10.1073 / pnas.85.15.5597 . PMC 281806 . PMID 16593967 .
^ Sánchez, A; Ocaña, J; Utzetb, F; Serrac, L (2003). "Comparación de distancias genéticas de Prevosti". Revista de Planificación e Inferencia Estadística . 109 (1–2): 43–65. doi : 10.1016 / s0378-3758 (02) 00297-5 .
^ HaCohen-Kerner Y, Tayeb A y Ben-Dror N (2010) Detección de plagio simple en artículos de informática. En: Actas de la 23a Conferencia Internacional de Lingüística Computacional págs. 421-429
^ Leik R (1966) Una medida de consenso ordinal. Pacific sociological review 9 (2): 85–90
^ Manfredo M, Vaske, JJ, Teel TL (2003) El índice de potencial de conflicto: un enfoque gráfico de la importancia práctica de la investigación de las dimensiones humanas. Dimensiones humanas de la vida silvestre 8: 219-228
^ a b c Vaske JJ, Beaman J, Barreto H, Shelby LB (2010) Una extensión y una mayor validación del índice de potencial de conflicto. Ciencias del ocio 32: 240–254
^ Van der Eijk C (2001) Acuerdo de medición en escalas de calificación ordenadas. Calidad y cantidad 35 (3): 325–341
^ Von Mises R (1939) Uber Aufteilungs-und Besetzungs-Wahrcheinlichkeiten. Revue de la Facultd des Sciences de de I'Universite d'lstanbul NS 4: 145−163
^ Sevast'yanov BA (1972) Ley de límite de Poisson para un esquema de sumas de variables aleatorias dependientes. (traducción de SM Rudolfer) Teoría de la probabilidad y sus aplicaciones, 17: 695−699
^ Hoaglin DC, Mosteller, F y Tukey, JW (1985) Explorando tablas de datos, tendencias y formas, Nueva York: John Wiley
^ a b WM Rand (1971). "Criterios objetivos para la evaluación de métodos de agrupamiento". Revista de la Asociación Estadounidense de Estadística . 66 (336): 846–850. arXiv : 1704.01036 . doi : 10.2307 / 2284239 . JSTOR 2284239 .
^ Lawrence Hubert y Phipps Arabie (1985). "Comparación de particiones". Revista de clasificación . 2 (1): 193–218. doi : 10.1007 / BF01908075 .
^ Nguyen Xuan Vinh, Julien Epps y James Bailey (2009). "Medidas teóricas de la información para la comparación de agrupaciones: ¿Es necesaria una corrección por azar?" (PDF) . ICML '09: Actas de la 26a Conferencia Internacional Anual sobre Aprendizaje Automático . ACM. págs. 1073–1080. Archivado desde el original (PDF) el 25 de marzo de 2012.PDF .
^ Wagner, Silke; Wagner, Dorothea (12 de enero de 2007). "Comparación de agrupaciones: una descripción general" (PDF) . Consultado el 14 de febrero de 2018 .

Referencias

Gibbs, Jack P .; Poston Jr, Dudley L. (marzo de 1975), "The Division of Labor: Conceptualization and Related Measures", Social Forces , 53 (3): 468–476, CiteSeerX 10.1.1.1028.4969 , doi : 10.2307 / 2576589 , JSTOR 2576589

Lieberson, Stanley (diciembre de 1969), "Measuring Population Diversity", American Sociological Review , 34 (6): 850–862, doi : 10.2307 / 2095977 , JSTOR 2095977

Swanson, David A. (septiembre de 1976), "A Sampling Distribution and Significance Test for Differences in Qualitative Variation", Social Forces , 55 (1): 182-184, doi : 10.2307 / 2577102 , JSTOR 2577102

Wilcox, Allen R. (octubre de 1967). Índices de variación cualitativa (PDF) (Informe). Archivado desde el original (PDF) el 15 de agosto de 2007.

Wilcox, Allen R. (junio de 1973). "Índices de variación cualitativa y medición política". The Western Political Quarterly . 26 (2): 325–343. doi : 10.2307 / 446831 . JSTOR 446831 .

[1] Esto solo puede suceder si el número de casos es un múltiplo del número de categorías.

[Freemen1965-2] Freemen LC (1965) Estadísticas aplicadas elementales . Nueva York: John Wiley and Sons págs. 40–43

[3] Kendal MC, Stuart A (1958) La teoría avanzada de estadística. Hafner Publishing Company p. 46

[Mueller1961-4] Mueller JE, Schuessler KP (1961) Razonamiento estadístico en sociología. Boston: Compañía Houghton Mifflin. págs. 177-179

[FOOTNOTEWilcox1967[[Category:Wikipedia_articles_needing_page_number_citations_from_May_2020]]<sup_class=] [[[Wikipedia:Citing_sources|page needed]]="this_citation_requires_a_reference_to_the_specific_page_or_range_of_pages_in_which_the_material_appears. (may_2020)">]-5">^ Wilcox (1967) , pág. ^{[ página necesaria ]} .

[Kaiser1968-6] Kaiser HF (1968) "Una medida de la calidad de la población de la distribución legislativa". The American Political Science Review 62 (1) 208

[7] Joel Gombin (18 de agosto de 2015). "qualvar: lanzamiento inicial (versión v0.1)" . Zenodo . doi : 10.5281 / zenodo.28341 .

[FOOTNOTEGibbsPoston_Jr1975-8] Gibbs y Poston Jr (1975) .

[FOOTNOTELieberson1969851-9] Lieberson (1969) , p. 851.

[10] IQV en xycoon

[Hunter1988-11] Hunter, PR; Gaston, MA (1988). "Índice numérico de la capacidad discriminatoria de los sistemas de tipificación: una aplicación del índice de diversidad de Simpson". J Clin Microbiol . 26 (11): 2465–2466.

[Friedman1925-12] Friedman WF (1925) La incidencia de la coincidencia y sus aplicaciones en el criptoanálisis. Documento técnico. Oficina del director de señales. Oficina de Imprenta del Gobierno de los Estados Unidos.

[Gini1912-13] Gini CW (1912) Variabilidad y mutabilidad, contribución al estudio de distribuciones y relaciones estadísticas. Studi Economico-Giuricici della R. Universita de Cagliari

[Simpson1949-14] Simpson, EH (1949). "Medida de la diversidad" . Naturaleza . 163 (4148): 688. doi : 10.1038 / 163688a0 .

[Bachi1956-15] Bachi R (1956) Un análisis estadístico del resurgimiento del hebreo en Israel. En: Bachi R (ed) Scripta Hierosolymitana, Vol III, Jerusalem: Magnus press pp 179–247

[Mueller1061-16] Mueller JH, Schuessler KF (1961) Razonamiento estadístico en sociología. Boston: Houghton Mifflin

[Gibbs1962-17] Gibbs, JP; Martin, WT (1962). "Urbanización, tecnología y división del trabajo: patrones internacionales". American Sociological Review . 27 (5): 667–677. doi : 10.2307 / 2089624 . JSTOR 2089624 .

[FOOTNOTELieberson1969[[Category:Wikipedia_articles_needing_page_number_citations_from_May_2020]]<sup_class=] [[[Wikipedia:Citing_sources|page needed]]="this_citation_requires_a_reference_to_the_specific_page_or_range_of_pages_in_which_the_material_appears. (may_2020)">]-18">^ Lieberson (1969) , p. ^{[ página necesaria ]} .

[Blau2000-19] Blau P (1977) Desigualdad y heterogeneidad. Free Press, Nueva York

[Perry2005-20] Perry M, Kader G (2005) Variación como unalikeability. Estadísticas de enseñanza 27 (2) 58–60

[Greenberg1956-21] Greenberg, JH (1956). "La medición de la diversidad lingüística". Idioma . 32 (1): 109-115. doi : 10.2307 / 410659 . JSTOR 410659 .

[Lautard1978-22] Tesis doctoral de Lautard EH (1978). ^{[ se necesita cita completa ]}

[23] Berger, WH; Parker, FL (1970). "Diversidad de forameníferos planctónicos en sedimentos de aguas profundas". Ciencia . 168 (3937): 1345-1347. doi : 10.1126 / science.168.3937.1345 . PMID 17731043 .

[Hill1973-24] Hill, MO (1973). "Diversidad y uniformidad: una notación unificadora y sus consecuencias". Ecología . 54 (2): 427–431. doi : 10.2307 / 1934352 . JSTOR 1934352 .

[Margalef1958-25] Margalef R (1958) Sucesión temporal y heterogeneidad espacial en el fitoplancton. En: Perspectivas en biología marina. Buzzati-Traverso (ed.) Univ Calif Press, Berkeley págs. 323–347

[Menhinick1964-26] Menhinick, EF (1964). "Una comparación de algunos índices de diversidad de especies-individuos aplicados a muestras de insectos de campo". Ecología . 45 (4): 859–861. doi : 10.2307 / 1934933 . JSTOR 1934933 .

[Kuraszkiewicz1851-27] Kuraszkiewicz W (1951) Nakladen Wroclawskiego Towarzystwa Naukowego

[Guiraud1854-28] Guiraud P (1954) Les caractères statistiques du vocabulaire. Prensas Universitaires de France, París

[Panas2001-29] Panas E (2001) The Generalized Torquist: Especificación y estimación de una nueva función de tamaño de vocabulario-texto. J Quant Ling 8 (3) 233–252

[Kempton1976-30] Kempton, RA; Taylor, LR (1976). "Modelos y estadísticas de diversidad de especies". Naturaleza . 262 (5571): 818–820. doi : 10.1038 / 262818a0 .

[Hutcheson1970-31] Hutcheson K (1970) Una prueba para comparar diversidades basada en la fórmula de Shannon. J Theo Biol 29: 151-154

[32] Fisher RA, Corbet A, Williams CB (1943) La relación entre el número de especies y el número de individuos en una muestra aleatoria de una población animal. Animal Ecol 12: 42–58

[Anscombe1950-33] Anscombe (1950) Teoría de muestreo de las distribuciones de series binomiales y logarítmicas negativas. Biometrika 37: 358–382

[Strong2002-34] Fuerte, WL (2002). "Evaluación de la desigualdad de abundancia de especies dentro y entre comunidades de plantas". Ecología comunitaria . 3 (2): 237–246. doi : 10.1556 / comec.3.2002.2.9 .

[Camargo1993-35] Camargo JA (1993) ¿Debe aumentar la dominancia con el número de especies subordinadas en interacciones competitivas? J. Theor Biol 161537–542

[Smith1996-36] Smith, Wilson (1996)^{[ cita completa necesaria ]}

[Bulla1994-37] Bulla, L. (1994). "Un índice de uniformidad y su medida de diversidad asociada". Oikos . 70 (1): 167-171. doi : 10.2307 / 3545713 . JSTOR 3545713 .

[Horn1966-38] Horn, HS (1966). "Medición de 'superposición' en estudios ecológicos comparativos". Soy Nat . 100 (914): 419–423. doi : 10.1086 / 282436 .

[39] Siegel, Andrew F (2006) "Curvas de rarefacción". Enciclopedia de Ciencias Estadísticas 10.1002 / 0471667196.ess2195.pub2.

[Caswell1976-40] Caswell H (1976) Estructura de la comunidad: un análisis de modelo neutral. Ecol Monogr 46: 327–354

[Poulin2003-41] Poulin, R; Mouillot, D (2003). "La especialización de parásitos desde una perspectiva filogenética: un nuevo índice de especificidad de acogida". Parasitología . 126 (5): 473–480. CiteSeerX 10.1.1.574.7432 . doi : 10.1017 / s0031182003002993 .

[Theirl1982-42] Theil H (1972) Análisis de descomposición estadística. Ámsterdam: North-Holland Publishing Company>

[Duncan1955-43] Duncan OD, Duncan B (1955) Un análisis metodológico de los índices de segregación. Am Sociol Review, 20: 210–217

[Gorard2002-44] Gorard S, Taylor C (2002b) ¿Qué es la segregación? Una comparación de medidas en términos de invariancia composicional "fuerte" y "débil". Sociología, 36 (4), 875–895

[Massey1988-45] Massey, DS; Denton, NA (1988). "Las dimensiones de la segregación residencial" . Fuerzas sociales . 67 (2): 281–315. doi : 10.1093 / sf / 67.2.281 .

[Hutchens2004-46] Hutchens RM (2004) Una medida de segregación. Revista Económica Internacional 45: 555–578

[Lieberson1981-47] Lieberson S (1981). "Un enfoque asimétrico de la segregación". En Peach C, Robinson V, Smith S (eds.). Segregación étnica en las ciudades . Londres: Croom Helm. págs. 61–82.

[Bell1954-48] Bell, W (1954). "Un modelo de probabilidad para la medición de la segregación ecológica". Fuerzas sociales . 32 (4): 357–364. doi : 10.2307 / 2574118 . JSTOR 2574118 .

[Ochiai1957-49] Ochiai A (1957) Estudios zoogeográficos sobre los peces soleoides encontrados en Japón y sus regiones vecinas. Bull Jpn Soc Sci Fish 22: 526–530

[Kulczynski1927-50] Kulczynski S (1927) Die Pflanzenassoziationen der Pieninen. Bulletin International de l'Académie Polonaise des Sciences et des Lettres, Classe des Sciences

[Yule1900-51] Yule GU (1900) sobre la asociación de atributos en estadística. Philos Trans Roy Soc

[Lienert1982-52] Lienert GA y Sporer SL (1982) Interkorrelationen seltner Symptome mittels Nullfeldkorrigierter YuleKoeffizienten. Psychologische Beitrage 24: 411–418

[Baroni-Urbani1976-53] Baroni-Urbani, C; Buser, MW (1976). "similitud de datos binarios". Biología sistemática . 25 (3): 251-259. doi : 10.2307 / 2412493 . JSTOR 2412493 .

[Forbes1907-54] Forbes SA (1907) sobre la distribución local de ciertos peces de Illinois: un ensayo sobre ecología estadística. Boletín del Laboratorio de Historia Natural del Estado de Illinois 7: 272–303

[Alroy2015-55] Alroy J (2015) Un nuevo giro en un coeficiente de similitud binaria muy antiguo. Ecología 96 (2) 575-586

[56] Carl R. Hausman y Douglas R. Anderson (2012). Conversaciones sobre Peirce: Reales e ideales . Prensa de la Universidad de Fordham. pag. 221. ISBN 9780823234677.

[57] Lance, GN; Williams, WT (1966). "Programas informáticos para clasificación politética jerárquica (" análisis de similitud ")" . Revista informática . 9 (1): 60–64. doi : 10.1093 / comjnl / 9.1.60 .

[Lance-58] Lance, GN; Williams, WT (1967). "Programas clasificatorios de datos mixtos I.) Sistemas aglomerativos". Australian Computer Journal : 15-20.

[Jaccard1902-59] Jaccard P (1902) Lois de distribution florale. Bulletin de la Socíeté Vaudoise des Sciences Naturelles 38: 67-130

[Archer1989-60] Archer AW y Maples CG (1989) Respuesta de coeficientes binomiales seleccionados a diversos grados de escasez de matrices y matrices con interrelaciones de datos conocidas. Geología matemática 21: 741–753

[Morisita1959-61] Morisita M (1959) Midiendo la dispersión y el análisis de patrones de distribución. Memorias de la Facultad de Ciencias, Serie de la Universidad de Kyushu E. Biol 2: 215–235

[Lloyd1967-62] Lloyd M (1967) Significa hacinamiento. J Anim Ecol 36: 1–30

[Pedigo1994-63] Pedigo LP & Buntin GD (1994) Manual de métodos de muestreo para artrópodos en agricultura. CRC Boca Raton FL

[Morisita1959a-64] Morisita M (1959) Medición de la dispersión y análisis de patrones de distribución. Memorias de la Facultad de Ciencias, Universidad de Kyushu, Serie E Biología. 2: 215-235

[Horn1966b-65] Horn, HS (1966). "Medición de" Superposición "en estudios ecológicos comparativos". El naturalista estadounidense . 100 (914): 419–424. doi : 10.1086 / 282436 .

[Smith-Gill1975-66] Smith-Gill SJ (1975). "Base citofisiológica de patrones pigmentarios disruptivos en la rana leopardo Rana pipiens . II. Patrones específicos de células mutantes y de tipo salvaje". J Morphol . 146 : 35–54.

[Peet1974-67] Peet (1974) Las medidas de diversidad de especies. Annu Rev Ecol Syst 5: 285–307

[68] Tversky, Amos (1977). "Características de la similitud" (PDF) . Revisión psicológica . 84 (4): 327–352. doi : 10.1037 / 0033-295x.84.4.327 .

[Jimenez2013-69] Jimenez S, Becerra C, Gelbukh A SOFTCARDINALITY-CORE: Mejorar la superposición del texto con medidas de distribución para la similitud textual semántica. Segunda Conferencia Conjunta sobre Semántica Léxica y Computacional (* SEM), Volumen 1: Actas de la conferencia principal y la tarea compartida: similitud textual semántica, p194-201. 7 al 8 de junio de 2013, Atlanta, Georgia, EE. UU.

[Monostori2002-70] Monostori K, Finkel R, Zaslavsky A, Hodasz G y Patke M (2002) Comparación de técnicas de detección de superposición. En: Actas de la Conferencia Internacional de Ciencias Computacionales de 2002. Notas de clase en Ciencias de la Computación 2329: 51-60

[Bernstein2004-71] Bernstein Y y Zobel J (2004) Un sistema escalable para identificar documentos co-derivados. En: Actas de la 11a Conferencia internacional sobre procesamiento de cadenas y recuperación de información (SPIRE) 3246: 55-67

[Prevosti1988-72] Prevosti, A; Ribo, G; Serra, L; Aguade, M; Balanya, J; Monclus, M; Mestres, F (1988). "Colonización de América por Drosophila subobscura : experimento en poblaciones naturales que apoya el papel adaptativo del polimorfismo de inversión cromosómica" . Proc Natl Acad Sci USA . 85 (15): 5597–5600. doi : 10.1073 / pnas.85.15.5597 . PMC 281806 . PMID 16593967 .

[Sanchez2003-73] Sánchez, A; Ocaña, J; Utzetb, F; Serrac, L (2003). "Comparación de distancias genéticas de Prevosti". Revista de Planificación e Inferencia Estadística . 109 (1–2): 43–65. doi : 10.1016 / s0378-3758 (02) 00297-5 .

[HaCohen-Kerner2010-74] HaCohen-Kerner Y, Tayeb A y Ben-Dror N (2010) Detección de plagio simple en artículos de informática. En: Actas de la 23a Conferencia Internacional de Lingüística Computacional págs. 421-429

[Leik1966-75] Leik R (1966) Una medida de consenso ordinal. Pacific sociological review 9 (2): 85–90

[Manfredo2003-76] Manfredo M, Vaske, JJ, Teel TL (2003) El índice de potencial de conflicto: un enfoque gráfico de la importancia práctica de la investigación de las dimensiones humanas. Dimensiones humanas de la vida silvestre 8: 219-228

[Vaske2010-77] Vaske JJ, Beaman J, Barreto H, Shelby LB (2010) Una extensión y una mayor validación del índice de potencial de conflicto. Ciencias del ocio 32: 240–254

[Van_der_Eijk2001-78] Van der Eijk C (2001) Acuerdo de medición en escalas de calificación ordenadas. Calidad y cantidad 35 (3): 325–341

[vonMises1939-79] Von Mises R (1939) Uber Aufteilungs-und Besetzungs-Wahrcheinlichkeiten. Revue de la Facultd des Sciences de de I'Universite d'lstanbul NS 4: 145−163

[Sevast'yanov1972-80] Sevast'yanov BA (1972) Ley de límite de Poisson para un esquema de sumas de variables aleatorias dependientes. (traducción de SM Rudolfer) Teoría de la probabilidad y sus aplicaciones, 17: 695−699

[Hoaglin1985-81] Hoaglin DC, Mosteller, F y Tukey, JW (1985) Explorando tablas de datos, tendencias y formas, Nueva York: John Wiley

[rand71-82] WM Rand (1971). "Criterios objetivos para la evaluación de métodos de agrupamiento". Revista de la Asociación Estadounidense de Estadística . 66 (336): 846–850. arXiv : 1704.01036 . doi : 10.2307 / 2284239 . JSTOR 2284239 .

[hb85-83] Lawrence Hubert y Phipps Arabie (1985). "Comparación de particiones". Revista de clasificación . 2 (1): 193–218. doi : 10.1007 / BF01908075 .

[84] Nguyen Xuan Vinh, Julien Epps y James Bailey (2009). "Medidas teóricas de la información para la comparación de agrupaciones: ¿Es necesaria una corrección por azar?" (PDF) . ICML '09: Actas de la 26a Conferencia Internacional Anual sobre Aprendizaje Automático . ACM. págs. 1073–1080. Archivado desde el original (PDF) el 25 de marzo de 2012.PDF .

[85] Wagner, Silke; Wagner, Dorothea (12 de enero de 2007). "Comparación de agrupaciones: una descripción general" (PDF) . Consultado el 14 de febrero de 2018 .

[1]