Un índice de variación cualitativa ( IQV ) es una medida de dispersión estadística en distribuciones nominales . Hay una variedad de estos, pero se han estudiado relativamente poco en la literatura estadística. El más simple es el índice de variación , mientras que los índices más complejos incluyen la entropía de la información .
Propiedades
Hay varios tipos de índices que se utilizan para el análisis de datos nominales. Varias son estadísticas estándar que se utilizan en otros lugares: rango , desviación estándar , varianza , desviación media , coeficiente de variación , desviación absoluta mediana , rango intercuartílico y desviación cuartil .
Además de estos, se han desarrollado varias estadísticas teniendo en cuenta los datos nominales. Wilcox ( Wilcox 1967 ), ( Wilcox 1973 ) ha resumido e ideado un número , que requiere que se satisfagan las siguientes propiedades de estandarización:
- La variación varía entre 0 y 1.
- La variación es 0 si y solo si todos los casos pertenecen a una sola categoría.
- La variación es 1 si y solo si los casos se dividen uniformemente en todas las categorías. [1]
En particular, el valor de estos índices estandarizados no depende del número de categorías o del número de muestras.
Para cualquier índice, cuanto más cercana a la uniformidad sea la distribución, mayor será la varianza, y cuanto mayores sean las diferencias en las frecuencias entre categorías, menor será la varianza.
Los índices de variación cualitativa son entonces análogos a la entropía de la información , que se minimiza cuando todos los casos pertenecen a una sola categoría y se maximizan en una distribución uniforme. De hecho, la entropía de la información se puede utilizar como índice de variación cualitativa.
Una caracterización de un índice particular de variación cualitativa (IQV) es como una relación entre las diferencias observadas y las diferencias máximas.
Índices de Wilcox
Wilcox da una serie de fórmulas para varios índices de QV ( Wilcox 1973 ), la primera, que designa DM para "Desviación de la moda", es una forma estandarizada de la razón de variación y es análoga a la varianza como desviación de la media. .
ModVR
La fórmula para la variación alrededor del modo (ModVR) se deriva de la siguiente manera:
donde f m es la frecuencia modal, K es el número de categorías y f i es la frecuencia del i- ésimo grupo.
Esto se puede simplificar a
donde N es el tamaño total de la muestra.
El índice de Freeman (o relación de variación) es [2]
Esto está relacionado con M de la siguiente manera:
El ModVR se define como
donde v es el índice de Freeman.
Los valores bajos de ModVR corresponden a una pequeña cantidad de variación y los valores altos a una gran cantidad de variación.
Cuando K es grande, ModVR es aproximadamente igual al índice de Freeman v .
RanVR
Esto se basa en el rango alrededor del modo. Se define para ser
donde f m es la frecuencia modal y f l es la frecuencia más baja.
AvDev
Este es un análogo de la desviación media. Se define como la media aritmética de las diferencias absolutas de cada valor de la media.
MNDif
Este es un análogo de la diferencia de medias: el promedio de las diferencias de todos los pares posibles de valores variables, tomados independientemente del signo. La diferencia de medias difiere de la media y la desviación estándar porque depende de la dispersión de los valores variables entre sí y no de las desviaciones de algún valor central. [3]
donde f i y f j son las frecuencias i- ésima y j- ésima , respectivamente.
El MNDif es el coeficiente de Gini aplicado a datos cualitativos.
VarNC
Este es un análogo de la varianza.
Es el mismo índice que el índice de variación cualitativa de Mueller y Schussler [4] y el índice M2 de Gibbs .
Se distribuye como una variable chi cuadrado con K - 1 grados de libertad . [[[Wikipedia:Citing_sources|
StDev
Wilson ha sugerido dos versiones de esta estadística.
El primero se basa en AvDev.
El segundo se basa en MNDif
HRel
Este índice fue desarrollado originalmente por Claude Shannon para especificar las propiedades de los canales de comunicación.
donde p i = f i / N .
Esto es equivalente a la entropía de la información dividida por la y es útil para comparar la variación relativa entre tablas de frecuencia de varios tamaños.
Índice B
Wilcox adaptó una propuesta de Kaiser [6] basada en la media geométrica y creó el índice B ' . El índice B se define como
Paquetes R
Varios de estos índices se han implementado en el lenguaje R. [7]
Gibbs y Poston Jr (1975) propusieron seis índices. [8]
M 1
El índice no estandarizado ( M 1) ( Gibbs & Poston Jr 1975 , p. 471) es
donde K es el número de categorías yes la proporción de observaciones que caen en una categoría i dada .
M 1 puede interpretarse como uno menos la probabilidad de que un par aleatorio de muestras pertenezca a la misma categoría, [9] por lo que esta fórmula para IQV es una probabilidad estandarizada de que un par aleatorio pertenezca a la misma categoría. Este índice también se ha denominado índice de diferenciación, índice de diferenciación de sustento e índice de diferenciación geográfica según el contexto en el que se ha utilizado.
M 2
Un segundo índice es el M2 [10] ( Gibbs & Poston Jr 1975 , p. 472) es:
donde K es el número de categorías yes la proporción de observaciones que caen en una categoría i dada . El factor de es para la estandarización.
M 1 y M 2 se pueden interpretar en términos de la varianza de una distribución multinomial ( Swanson 1976 ) (llamado allí un "modelo binomial expandido"). M 1 es la varianza de la distribución multinomial y M 2 es la relación entre la varianza de la distribución multinomial y la varianza de una distribución binomial .
M 4
El índice M 4 es
donde m es la media.
M 6
La fórmula para M 6 es
· Donde K es el número de categorías, X i es el número de puntos de datos en la i- ésima categoría, N es el número total de puntos de datos, || es el valor absoluto (módulo) y
Esta fórmula se puede simplificar
donde p i es la proporción de la muestra en la i- ésima categoría.
En la práctica, M 1 y M 6 tienden a estar altamente correlacionados, lo que va en contra de su uso combinado.
Índices relacionados
La suma
también ha encontrado aplicación. Esto se conoce como índice de Simpson en ecología y como índice de Herfindahl o índice de Herfindahl-Hirschman (HHI) en economía. Una variante de esto se conoce como índice de Hunter-Gaston en microbiología [11].
En lingüística y criptoanálisis, esta suma se conoce como tasa de repetición. La incidencia de coincidencia ( IC ) es un estimador insesgado de esta estadística [12]
donde f i es el recuento del i- ésimo grafema en el texto y n es el número total de grafemas en el texto.
- M 1
La estadística M 1 definida anteriormente se ha propuesto varias veces en varios entornos diferentes con una variedad de nombres. Estos incluyen el índice de mutabilidad de Gini, [13] la medida de diversidad de Simpson, [14] el índice de homogeneidad lingüística de Bachi, [15] el índice de variación cualitativa de Mueller y Schuessler, [16] el índice de diversificación industrial de Gibbs y Martin, [17] Lieberson índice. [[[Wikipedia:Citing_sources|
La D de Simpson se define como
donde n es el tamaño total de la muestra y n i es el número de elementos de la i- ésima categoría.
Para grandes n tenemos
Otra estadística que se ha propuesto es el coeficiente de incompatibilidad que oscila entre 0 y 1. [20]
donde n es el tamaño de la muestra y c ( x , y ) = 1 si x y y son iguales y 0 en caso contrario.
Para grandes n tenemos
donde K es el número de categorías.
Otra estadística relacionada es la entropía cuadrática.
que a su vez está relacionado con el índice de Gini .
- M 2
El índice monolingüe no ponderado de diversidad lingüística de Greenberg [21] es la estadística M 2 definida anteriormente.
- M 7
Otro índice, el M 7, se creó a partir del índice M 4 de Gibbs & Poston Jr (1975) [22].
dónde
y
donde K es el número de categorías, L es el número de subtipos, O ij y E ij son el número observado y esperado respectivamente del subtipo j en la i- ésima categoría, n i es el número en la i- ésima categoría y p j es la proporción de subtipo j en la muestra completa.
Nota: Este índice fue diseñado para medir la participación de las mujeres en el lugar de trabajo: los dos subtipos para los que fue desarrollado fueron masculino y femenino.
Otros índices de muestra única
Estos índices son estadísticas resumidas de la variación dentro de la muestra.
Índice de Berger-Parker
El índice de Berger-Parker es igual al máximovalor en el conjunto de datos, es decir, la abundancia proporcional del tipo más abundante. [23] Esto corresponde a la media generalizada ponderada de lavalores cuando q se acerca al infinito, y por lo tanto es igual a la inversa de la verdadera diversidad de orden infinito (1 / ∞ D ).
Índice de diversidad de Brillouin
Este índice es estrictamente aplicable solo a poblaciones enteras en lugar de a muestras finitas. Se define como
donde N es el número total de individuos en la población, n i es el número de individuos en la i- ésima categoría y N ! es el factorial de N . El índice de uniformidad de Brillouin se define como
donde I B (max) es el valor máximo de I B .
Números de diversidad de Hill
Hill sugirió una familia de números de diversidad [24]
Para valores dados de varios de los otros índices se pueden calcular
- a = 0: N a = riqueza de especies
- a = 1: N a = índice de Shannon
- a = 2: N a = 1 / índice de Simpson (sin la corrección de muestra pequeña)
- a = 3: N a = 1 / índice de Berger-Parker
Hill también sugirió una familia de medidas de uniformidad
donde a > b .
Hill's E 4 es
Hill's E 5 es
Índice de Margalef
donde S es el número de tipos de datos en la muestra y N es el tamaño total de la muestra. [25]
Índice de menhinick
donde S es el número de tipos de datos en la muestra y N es el tamaño total de la muestra. [26]
En lingüística, este índice es idéntico al índice de Kuraszkiewicz (índice de Guiard) donde S es el número de palabras distintas (tipos) y N es el número total de palabras (tokens) en el texto que se examina. [27] [28] Este índice se puede derivar como un caso especial de la función Torquist generalizada. [29]
Estadístico Q
Esta es una estadística inventada por Kempton y Taylor. [30] e involucra los cuartiles de la muestra. Se define como
donde R 1 y R 1 son los cuartiles de 25% y 75% respectivamente en la curva de especies acumuladas, n j es el número de especies en la j- ésima categoría, n Ri es el número de especies en la clase donde R i cae ( i = 1 o 2).
Índice de Shannon-Wiener
Esto está tomado de la teoría de la información.
donde N es el número total de la muestra y p i es la proporción en la i- ésima categoría.
En ecología, donde este índice se usa comúnmente, H generalmente se encuentra entre 1.5 y 3.5 y rara vez excede 4.0.
Una fórmula aproximada para la desviación estándar (SD) de H es
donde p i es la proporción compuesta por la i- ésima categoría y N es el total de la muestra.
Un valor aproximado más exacto de la varianza de H (var ( H )) viene dado por [31]
donde N es el tamaño de la muestra y K es el número de categorías.
Un índice relacionado es el Pielou J definido como
Una dificultad con este índice es que S es desconocido para una muestra finita. En la práctica, S generalmente se establece en el máximo presente en cualquier categoría de la muestra.
Entropía de Rényi
La entropía de Rényi es una generalización de la entropía de Shannon a otros valores de q distintos de la unidad. Puede expresarse:
que es igual
Esto significa que tomando el logaritmo de la diversidad verdadera basado en cualquier valor de q se obtiene la entropía de Rényi correspondiente al mismo valor de q .
El valor de también se conoce como el número Hill. [24]
D y E de McIntosh
donde N es el tamaño total de la muestra y n i es el número de la i- ésima categoría.
donde K es el número de categorías.
Alfa de Fisher
Este fue el primer índice que se derivó para la diversidad. [32]
donde K es el número de categorías y N es el número de puntos de datos en la muestra. El α de Fisher debe estimarse numéricamente a partir de los datos.
El número esperado de individuos en la r- ésima categoría donde las categorías se han colocado en tamaño creciente es
donde X es un parámetro empírico que se encuentra entre 0 y 1. Si bien X se estima mejor numéricamente, se puede obtener un valor aproximado resolviendo las dos ecuaciones siguientes
donde K es el número de categorías y N es el tamaño total de la muestra.
La varianza de α es aproximadamente [33]
Índice de Strong
Este índice ( D w ) es la distancia entre la curva de Lorenz de distribución de especies y la línea de 45 grados. Está estrechamente relacionado con el coeficiente de Gini. [34]
En símbolos es
donde max () es el valor máximo tomado sobre los N puntos de datos, K es el número de categorías (o especies) en el conjunto de datos y c i es el total acumulado incluyendo la i- ésima categoría.
Simpson's E
Esto está relacionado con la D de Simpson y se define como
donde D es la D de Simpson y K es el número de categorías de la muestra.
Índices de Smith & Wilson
Smith y Wilson sugirieron varios índices basados en la D de Simpson .
donde D es la D de Simpson y K es el número de categorías.
Índice de Heip
donde H es la entropía de Shannon y K es el número de categorías.
Este índice está estrechamente relacionado con el índice de Sheldon, que es
donde H es la entropía de Shannon y K es el número de categorías.
Índice de Camargo
Este índice fue creado por Camargo en 1993. [35]
donde K es el número de categorías y p i es la proporción en la i- ésima categoría.
Smith y Wilson's B
Este índice fue propuesto por Smith y Wilson en 1996. [36]
donde θ es la pendiente de la curva de rango logarítmico (abundancia).
Índice de Nee, Harvey y Cotgreave
Ésta es la pendiente de la curva de rango logarítmico (abundancia).
E de Bulla
Hay dos versiones de este índice: una para distribuciones continuas ( E c ) y la otra para distribuciones discretas ( E d ). [37]
dónde
es el índice de Schoener-Czekanoski, K es el número de categorías y N es el tamaño de la muestra.
Índice de teoría de la información de Horn
Este índice ( R ik ) se basa en la entropía de Shannon. [38] Se define como
dónde
En estas ecuaciones, x ij y x kj son el número de veces que el j- ésimo tipo de datos aparece en la i- ésima o la k- ésima muestra, respectivamente.
Índice de rarefacción
En una muestra enrarecida, se elige una submuestra aleatoria n del total de N elementos. En esta muestra, algunos grupos pueden estar necesariamente ausentes de esta submuestra. Dejarsea el número de grupos todavía presentes en la submuestra de n elementos.es menor que K el número de categorías siempre que falta al menos un grupo en esta submuestra.
La curva de rarefacción , Se define como:
Tenga en cuenta que 0 ≤ f ( n ) ≤ K .
Además,
A pesar de estar definidas en valores discretos de n , estas curvas se muestran con mayor frecuencia como funciones continuas. [39]
Este índice se analiza con más detalle en Rarefacción (ecología) .
V de Caswell
Esta es una estadística de tipo z basada en la entropía de Shannon. [40]
donde H es la entropía de Shannon, E ( H ) es la entropía de Shannon esperada para un modelo de distribución neutral y SD ( H ) es la desviación estándar de la entropía. La desviación estándar se estima a partir de la fórmula derivada de Pielou
donde p i es la proporción compuesta por la i- ésima categoría y N es el total de la muestra.
Índice de Lloyd & Ghelardi
Esto es
donde K es el número de categorías y K ' es el número de categorías según el modelo de palo roto de MacArthur que produce la diversidad observada.
Índice de distinción taxonómica promedio
Este índice se utiliza para comparar la relación entre los huéspedes y sus parásitos. [41] Incorpora información sobre la relación filogenética entre las especies hospedadoras.
donde s es el número de especies hospedadoras utilizadas por un parásito y ω ij es la distinción taxonómica entre las especies hospedadoras i y j .
Índice de variación cualitativa
Se han propuesto varios índices con este nombre.
Uno de estos es
donde K es el número de categorías y p i es la proporción de la muestra que se encuentra en la i- ésima categoría.
Theil's H
Este índice también se conoce como índice de entropía multigrupo o índice de teoría de la información. Fue propuesto por Theil en 1972. [42] El índice es un promedio ponderado de la entropía de las muestras.
Dejar
y
donde p i es la proporción de tipo i en la a- ésima muestra, r es el número total de muestras, n i es el tamaño de la i- ésima muestra, N es el tamaño de la población de la que se obtuvieron las muestras y E es la entropía de la población.
Índices para la comparación de dos o más tipos de datos dentro de una sola muestra
Varios de estos índices se han desarrollado para documentar el grado en que pueden coexistir diferentes tipos de datos de interés dentro de un área geográfica.
Índice de disimilitud
Sean A y B dos tipos de elementos de datos. Entonces el índice de disimilitud es
dónde
A i es el número de datos de tipo A en el sitio de muestreo i , B i es el número de datos de tipo B en el sitio de muestreo i , K es el número de sitios muestreados y || es el valor absoluto.
Este índice probablemente se conoce mejor como índice de disimilitud ( D ). [43] Está estrechamente relacionado con el índice de Gini.
Este índice está sesgado ya que su expectativa bajo una distribución uniforme es> 0.
Gorard y Taylor han propuesto una modificación de este índice. [44] Su índice (GT) es
Índice de segregación
El índice de segregación ( IS ) [45] es
dónde
y K es el número de unidades, A i y t i es el número de tipo de datos A en la unidad i y el número total de todos los tipos de datos en la unidad i .
Índice de raíz cuadrada de Hutchen
Este índice ( H ) se define como [46]
donde p i es la proporción de la muestra compuesta por la i- ésima variante.
Índice de aislamiento de Lieberson
Lieberson inventó este índice ( L xy ) en 1981. [47]
donde X i e Y i son las variables de interés en el i- ésimo sitio, K es el número de sitios examinados y X tot es el número total de variantes de tipo X en el estudio.
Índice de Bell
Este índice se define como [48]
donde p x es la proporción de la muestra compuesta por variantes de tipo X y
donde N x es el número total de variantes del tipo X en el estudio, K es el número de muestras en el estudio y x i y p i son el número de variantes y la proporción de variantes del tipo X respectivamente en la i- ésima muestra .
Índice de aislamiento
El índice de aislamiento es
donde K es el número de unidades en el estudio, A i y t i es el número de unidades del tipo A y el número de todas las unidades en la i- ésima muestra.
También se ha propuesto un índice de aislamiento modificado.
El MII se encuentra entre 0 y 1.
Índice de segregación de Gorard
Este índice (GS) se define como
dónde
y A i y t i son el número de elementos de datos de tipo A y el número total de elementos en la i- ésima muestra.
Índice de exposición
Este índice se define como
dónde
y A i y B i son el número de tipos A y B en la i- ésima categoría y t i es el número total de puntos de datos en la i- ésima categoría.
Índice de Ochai
Esta es una forma binaria del índice de coseno. [49] Se utiliza para comparar datos de presencia / ausencia de dos tipos de datos (aquí A y B ). Se define como
donde una es el número de unidades de muestra donde ambos A y B se encuentran, b es el número de unidades de muestra donde A pero no B se produce y c es el número de unidades de la muestra donde el tipo B está presente pero no de tipo A .
Coeficiente de Kulczyński
Este coeficiente fue inventado por Stanisław Kulczyński en 1927 [50] y es un índice de asociación entre dos tipos (aquí A y B ). Varía en valor entre 0 y 1. Se define como
donde a es el número de unidades de muestra donde el tipo A y el tipo B están presentes, b es el número de unidades de muestra donde el tipo A pero no el tipo B está presente yc es el número de unidades de muestra donde el tipo B está presente pero no el tipo A .
Q de Yule
Este índice fue inventado por Yule en 1900. [51] Se refiere a la asociación de dos tipos diferentes (aquí A y B ). Se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. Q varía en valor entre -1 y +1. En el caso ordinal Q se conoce como Goodman-Kruskal γ .
Debido a que el denominador potencialmente puede ser cero, Leinhert y Sporer han recomendado la adición de 1 a un , b , c y d . [52]
Yule's Y
Este índice se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes.
Coeficiente de Baroni – Urbani – Buser
Este índice fue inventado por Baroni-Urbani y Buser en 1976. [53] Su valor varía entre 0 y 1. Se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.
Cuando d = 0, este índice es idéntico al índice de Jaccard.
Coeficiente de Hamman
Este coeficiente se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.
Coeficiente de Rogers-Tanimoto
Este coeficiente se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra
Coeficiente de Sokal-Sneath
Este coeficiente se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.
Distancia binaria de Sokal
Este coeficiente se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.
Coeficiente de Russel-Rao
Este coeficiente se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.
Coeficiente phi
Este coeficiente se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes.
Coeficiente de Soergel
Este coeficiente se define como
donde b es el número de muestras en las que el tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras en donde ninguno de los tipos A , ni de tipo B están presentes. N es el tamaño de la muestra.
Coeficiente de Simpson
Este coeficiente se define como
donde b es el número de muestras en las que el tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A .
Coeficiente de Dennis
Este coeficiente se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.
Coeficiente de Forbes
Este coeficiente fue propuesto por Stephen Alfred Forbes en 1907. [54] Se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.
Alroy ha propuesto una modificación de este coeficiente [55].
Coeficiente de coincidencia simple
Este coeficiente se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.
Coeficiente de Fossum
Este coeficiente se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.
Coeficiente de Stile
Este coeficiente se define como
donde a es el número de muestras donde los tipos A y B están presentes, b es donde el tipo A está presente pero no el tipo B , c es el número de muestras donde el tipo B está presente pero no el tipo A , d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes, n es igual a a + b + c + d y || es el módulo (valor absoluto) de la diferencia.
Coeficiente de Michael
Este coeficiente se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes.
Coeficiente de Peirce
En 1884 Charles Peirce sugirió [56] el siguiente coeficiente
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes.
Coeficiente de Hawkin-Dotson
En 1975, Hawkin y Dotson propusieron el siguiente coeficiente
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.
Coeficiente de Benini
En 1901 Benini propuso el siguiente coeficiente
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B y C es el número de muestras en las que el tipo B está presente pero no de tipo A . Min ( b , c ) es el mínimo de b y c .
Coeficiente de Gilbert
Gilbert propuso el siguiente coeficiente
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el recuento de muestras donde ni el tipo A ni el tipo B están presentes. N es el tamaño de la muestra.
Índice de Gini
El índice de Gini es
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B y C es el número de muestras en las que el tipo B está presente pero no de tipo A .
Índice de Gini modificado
El índice de Gini modificado es
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B y C es el número de muestras en las que el tipo B está presente pero no de tipo A .
Índice de Kuhn
Kuhn propuso el siguiente coeficiente en 1965
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B y C es el número de muestras en las que el tipo B está presente pero no de tipo A . K es un parámetro de normalización. N es el tamaño de la muestra.
Este índice también se conoce como coeficiente de medias aritméticas.
Índice de Eyraud
Eyraud propuso el siguiente coeficiente en 1936
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el número de muestras donde ni A ni B están presentes.
Distancia de Soergel
Esto se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el número de muestras donde ni A ni B están presentes. N es el tamaño de la muestra.
Índice de Tanimoto
Esto se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A y d es el número de muestras donde ni A ni B están presentes. N es el tamaño de la muestra.
Índice de Piatetsky-Shapiro
Esto se define como
donde una es el número de muestras en las que los tipos A y B están ambos presentes, b es donde tipo A está presente pero no de tipo B , c es el número de muestras en las que el tipo B está presente pero no de tipo A .
Índices de comparación entre dos o más muestras
Índice cuantitativo de Czekanowski
Esto también se conoce como índice de Bray-Curtis , índice de Schoener, índice de porcentaje mínimo común, índice de afinidad o similitud proporcional. Está relacionado con el índice de similitud de Sørensen .
donde x i y x j son el número de especies en los sitios i y j respectivamente y el mínimo se toma sobre el número de especies en común entre los dos sitios.
Métrica de Canberra
La distancia de Canberra es una versión ponderada de la métrica L 1 . Fue introducido por introducido en 1966 [57] y refinado en 1967 [58] por GN Lance y WT Williams . Se utiliza para definir una distancia entre dos vectores; en este caso, dos sitios con categorías K dentro de cada sitio.
El Canberra distancia d entre los vectores p y q en un K -dimensional verdadero espacio vectorial es
donde p i y q i son los valores de la i- ésima categoría de los dos vectores.
Coeficiente de comunidad de Sorensen
Se utiliza para medir similitudes entre comunidades.
donde s 1 y s 2 son el número de especies en la comunidad 1 y 2 respectivamente y c es el número de especies comunes a ambas áreas.
Índice de Jaccard
Esta es una medida de la similitud entre dos muestras:
donde A es el número de puntos de datos compartidos entre las dos muestras y B y C son los puntos de datos que se encuentran solo en la primera y segunda muestras respectivamente.
Este índice fue inventado en 1902 por el botánico suizo Paul Jaccard . [59]
Bajo una distribución aleatoria, el valor esperado de J es [60]
El error estándar de este índice con el supuesto de una distribución aleatoria es
donde N es el tamaño total de la muestra.
Índice de dados
Esta es una medida de la similitud entre dos muestras:
donde A es el número de puntos de datos compartidos entre las dos muestras y B y C son los puntos de datos que se encuentran solo en la primera y segunda muestras respectivamente.
Coeficiente de coincidencia
Esta es una medida de la similitud entre dos muestras:
donde N es el número de puntos de datos en las dos muestras y B y C son los puntos de datos que se encuentran solo en la primera y segunda muestras respectivamente.
Índice de morisita
El índice de dispersión de Morisita ( I m ) es la probabilidad escalada de que dos puntos elegidos al azar de toda la población estén en la misma muestra. [61] Los valores más altos indican una distribución más agrupada.
Una formulación alternativa es
donde n es el tamaño total de la muestra, m es la media de la muestra yx son los valores individuales con la suma de toda la muestra. También es igual a
donde IMC es el índice de hacinamiento de Lloyd. [62]
Este índice es relativamente independiente de la densidad de población, pero se ve afectado por el tamaño de la muestra.
Morisita mostró que la estadística [61]
se distribuye como una variable chi-cuadrado con n - 1 grados de libertad.
Se ha desarrollado una prueba de significancia alternativa para este índice para muestras grandes. [63]
donde m es la media muestral general, n es el número de unidades muestrales yz es la abscisa de distribución normal . La significancia se prueba comparando el valor de z con los valores de la distribución normal .
Índice de superposición de Morisita
El índice de superposición de Morisita se utiliza para comparar la superposición entre muestras. [64] El índice se basa en el supuesto de que aumentar el tamaño de las muestras aumentará la diversidad porque incluirá diferentes hábitats.
- x i es el número de veces que la especie i está representada en el total X de una muestra.
- y i es el número de veces que la especie i está representada en el total Y de otra muestra.
- D x y D y son el índice de Simpson valores para la x y Y muestras respectivamente.
- S es el número de especies únicas
C D = 0 si las dos muestras no se superponen en términos de especies, y C D = 1 si las especies se encuentran en las mismas proporciones en ambas muestras.
Horn introdujo una modificación del índice [65]
Índice de Morisita estandarizado
Smith-Gill desarrolló una estadística basada en el índice de Morisita que es independiente tanto del tamaño de la muestra como de la densidad de población y está limitada por -1 y +1. Esta estadística se calcula de la siguiente manera [66]
Primero determine el índice de Morisita ( I d ) de la manera habitual. Entonces sea k el número de unidades de las que se muestreó la población. Calcule los dos valores críticos
donde χ 2 es el valor de chi cuadrado para n - 1 grados de libertad en los niveles de confianza del 97,5% y el 2,5%.
Luego, el índice estandarizado ( I p ) se calcula a partir de una de las fórmulas siguientes
Cuando yo d ≥ M c > 1
Cuando M c > I d ≥ 1
Cuando 1> I d ≥ M u
Cuando 1> M u > I d
I p varía entre +1 y -1 con intervalos de confianza del 95% de ± 0,5. I p tiene el valor de 0 si el patrón es aleatorio; si el patrón es uniforme, I p <0 y si el patrón muestra agregación, I p > 0.
Índices de uniformidad de Peet
Estos índices son una medida de uniformidad entre muestras. [67]
donde I es un índice de diversidad, I max e I min son los valores máximo y mínimo de I entre las muestras que se comparan.
Coeficiente de Loevinger
Loevinger ha sugerido un coeficiente H definido de la siguiente manera:
donde p max y p min son las proporciones máxima y mínima en la muestra.
Índice de Tversky
El índice de Tversky [68] es una medida asimétrica que se encuentra entre 0 y 1.
Para las muestras A y B, el índice de Tversky ( S ) es
Los valores de α y β son arbitrarios. Establecer tanto α como β en 0,5 da el coeficiente de Dice . Establecer ambos en 1 da el coeficiente de Tanimoto .
También se ha propuesto una variante simétrica de este índice. [69]
dónde
Se han propuesto varios índices similares.
Monostori y col. propuso el índice de similitud simétrica [70]
donde d ( X ) es alguna medida de derivado de X .
Bernstein y Zobel han propuesto los índices S2 y S3 [71]
S3 es simplemente el doble del índice SymmetricSimilarity. Ambos están relacionados con el coeficiente de Dice
Métricas utilizadas
Se han propuesto varias métricas (distancias entre muestras).
distancia euclidiana
Si bien esto se usa generalmente en trabajo cuantitativo, también se puede usar en trabajo cualitativo. Esto se define como
donde d jk es la distancia entre x ij y x ik .
La distancia de Gower
Esto se define como
donde d i es la distancia entre las i- ésimas muestras y w i es el peso dado a la i- ésima distancia.
Distancia de Manhattan
Si bien esto se usa más comúnmente en el trabajo cuantitativo, también se puede usar en el trabajo cualitativo. Esto se define como
donde d jk es la distancia entre x ij y x ik y || es el valor absoluto de la diferencia entre x ij y x ik .
Se puede usar una versión modificada de la distancia de Manhattan para encontrar un cero ( raíz ) de un polinomio de cualquier grado usando el método de Lill .
La distancia de Prevosti
Esto está relacionado con la distancia de Manhattan. Fue descrito por Prevosti et al. y se utilizó para comparar diferencias entre cromosomas . [72] Sean P y Q dos conjuntos de r distribuciones de probabilidad finitas. Dejemos que estas distribuciones tengan valores divididos en k categorías. Entonces la distancia D PQ es
donde r es el número de distribuciones de probabilidad discretas en cada población, k j es el número de categorías en las distribuciones P j y Q j y p ji (respectivamente q ji ) es la probabilidad teórica de la categoría i en la distribución P j ( Q j ) en la población P ( Q ).
Sus propiedades estadísticas fueron examinadas por Sánchez et al. [73] quien recomendó un procedimiento de arranque para estimar los intervalos de confianza al probar las diferencias entre las muestras.
Otras métricas
Dejar
donde min ( x , y ) es el valor menor del par x y y .
Luego
es la distancia de Manhattan,
es la distancia de Bray-Curtis,
es la distancia de Jaccard (o Ruzicka) y
es la distancia de Kulczynski.
Similitudes entre textos
HaCohen-Kerner y col. han propuesto una variedad de métricas para comparar dos o más textos. [74]
Datos ordinales
Si las categorías son al menos ordinales, se pueden calcular otros índices.
D de Leik
La medida de dispersión de Leik ( D ) es uno de esos índices. [75] Que haya K categorías y sea p i ser f i / N , donde f i es el número en el i ésimo categoría y dejar que las categorías disponerse en orden ascendente. Dejar
donde un ≤ K . Sea d a = c a si c a ≤ 0.5 y 1 - c a ≤ 0.5 en caso contrario. Luego
Medida de Herfindahl normalizada
Este es el cuadrado del coeficiente de variación dividido por N - 1 donde N es el tamaño de la muestra.
donde m es la media y s es la desviación estándar.
Índice de potencial de conflicto
El índice de potencial de conflicto (PCI) describe la proporción de puntuación a cada lado del punto central de una escala de calificación. [76] Este índice requiere al menos datos ordinales. Esta relación a menudo se muestra como un gráfico de burbujas .
El PCI utiliza una escala ordinal con un número impar de puntos de calificación (- n a + n ) centrados en 0. Se calcula de la siguiente manera
donde Z = 2 n , | · | es el valor absoluto (módulo), r + es el número de respuestas en el lado positivo de la escala, r - es el número de respuestas en el lado negativo de la escala, X + son las respuestas en el lado positivo de la escala , X - son las respuestas en el lado negativo de la escala y
Se sabe que existen dificultades teóricas con el PCI. El PCI se puede calcular solo para escalas con un punto central neutral y un número igual de opciones de respuesta a cada lado. Además, una distribución uniforme de respuestas no siempre produce el punto medio de la estadística PCI, sino que varía con el número de posibles respuestas o valores en la escala. Por ejemplo, las escalas de cinco, siete y nueve puntos con una distribución uniforme de respuestas dan PCI de 0,60, 0,57 y 0,50 respectivamente.
El primero de estos problemas es relativamente menor, ya que la mayoría de las escalas ordinales con un número par de respuestas se pueden ampliar (o reducir) en un solo valor para dar un número impar de posibles respuestas. Por lo general, la escala se puede actualizar si es necesario. El segundo problema es más difícil de resolver y puede limitar la aplicabilidad del PCI.
El PCI se ha ampliado [77]
donde K es el número de categorías, k i es el número en la i- ésima categoría, d ij es la distancia entre la i- ésima y la i- ésima categoría, y δ es la distancia máxima en la escala multiplicada por el número de veces que puede ocurren en la muestra. Para una muestra con un número par de puntos de datos
y para una muestra con un número impar de puntos de datos
donde N es el número de puntos de datos en la muestra yd max es la distancia máxima entre puntos en la escala.
Vaske y col. Sugiera una serie de posibles medidas de distancia para su uso con este índice. [77]
si los signos (+ o -) de r i y r j difieren. Si los signos son los mismos d ij = 0.
donde p es un número real arbitrario> 0.
si signo ( r i ) ≠ signo ( r i ) yp es un número real> 0. Si los signos son los mismos, entonces d ij = 0. m es D 1 , D 2 o D 3 .
La diferencia entre D 1 y D 2 es que el primero no incluye neutrales en la distancia mientras que el segundo sí. Por ejemplo, los encuestados con una puntuación de -2 y +1 tendrían una distancia de 2 en D 1 y 3 en D 2 .
El uso de una potencia ( p ) en las distancias permite reescalar las respuestas extremas. Estas diferencias se pueden resaltar con p > 1 o disminuir con p <1.
En simulaciones con variantes extraídas de una distribución uniforme, el PCI 2 tiene una distribución unimodal simétrica. [77] Las colas de su distribución son más grandes que las de una distribución normal.
Vaske y col. Sugiera el uso de una prueba t para comparar los valores de PCI entre muestras si los PCI se distribuyen aproximadamente normalmente.
A de van der Eijk
Esta medida es un promedio ponderado del grado de concordancia de la distribución de frecuencias. [78] A varía de -1 ( bimodalidad perfecta ) a +1 ( unimodalidad perfecta ). Se define como
donde U es la unimodalidad de la distribución, S el número de categorías que tienen frecuencias distintas de cero y K el número total de categorías.
El valor de U es 1 si la distribución tiene alguna de las tres características siguientes:
- todas las respuestas están en una sola categoría
- las respuestas se distribuyen uniformemente entre todas las categorías
- las respuestas se distribuyen uniformemente entre dos o más categorías contiguas, con las otras categorías con cero respuestas
Con distribuciones distintas a estas, los datos deben dividirse en "capas". Dentro de una capa, las respuestas son iguales o nulas. No es necesario que las categorías sean contiguas. Se calcula un valor de A para cada capa ( A i ) y se determina un promedio ponderado para la distribución. Los pesos ( w i ) para cada capa son el número de respuestas en esa capa. En simbolos
Una distribución uniforme tiene A = 0: cuando todas las respuestas caen en una categoría A = +1.
Un problema teórico con este índice es que supone que los intervalos están igualmente espaciados. Esto puede limitar su aplicabilidad.
Estadísticas relacionadas
Problema de cumpleaños
Si hay n unidades en la muestra y se distribuyen aleatoriamente en k categorías ( n ≤ k ), esto puede considerarse una variante del problema de cumpleaños . [79] La probabilidad ( p ) de que todas las categorías tengan una sola unidad es
Si c es grande yn es pequeño en comparación con k 2/3, entonces con una buena aproximación
Esta aproximación se deriva de la fórmula exacta de la siguiente manera:
- Estimaciones del tamaño de la muestra
Para p = 0.5 yp = 0.05 respectivamente, las siguientes estimaciones de n pueden ser útiles
Este análisis se puede extender a múltiples categorías. Para p = 0.5 yp 0.05 tenemos respectivamente
donde c i es el tamaño de la i- ésima categoría. Este análisis asume que las categorías son independientes.
Si los datos están ordenados de alguna manera, entonces para al menos un evento que ocurre en dos categorías que se encuentran dentro de j categorías entre sí, una probabilidad de 0.5 o 0.05 requiere un tamaño de muestra ( n ) respectivamente de [80]
donde k es el número de categorías.
Problema del día de cumpleaños-muerte
Se ha investigado si existe o no una relación entre los cumpleaños y los días de defunción con la estadística [81]
donde d es el número de días del año entre el cumpleaños y el día de la muerte.
Índice Rand
El índice Rand se utiliza para probar si dos o más sistemas de clasificación concuerdan en un conjunto de datos. [82]
Dado un conjunto de elementos y dos particiones de comparar, , una partición de S en r subconjuntos, y, una partición de S en subconjuntos s , defina lo siguiente:
- , el número de pares de elementos en que están en el mismo subconjunto en y en el mismo subconjunto en
- , el número de pares de elementos en que se encuentran en diferentes subconjuntos en y en diferentes subconjuntos en
- , el número de pares de elementos en que están en el mismo subconjunto en y en diferentes subconjuntos en
- , el número de pares de elementos en que se encuentran en diferentes subconjuntos en y en el mismo subconjunto en
El índice Rand - - Se define como
Intuitivamente, puede considerarse como el número de acuerdos entre y y como el número de desacuerdos entre y .
Índice de Rand ajustado
El índice Rand ajustado es la versión corregida por azar del índice Rand. [82] [83] [84] Aunque el índice Rand solo puede arrojar un valor entre 0 y +1, el índice Rand ajustado puede generar valores negativos si el índice es menor que el índice esperado. [85]
La mesa de contingencia
Dado un conjunto de elementos, y dos agrupaciones o particiones ( por ejemplo, agrupaciones) de estos puntos, a saber y , la superposición entre y se puede resumir en una tabla de contingencia donde cada entrada denota el número de objetos en común entre y : .
X \ Y | Sumas | ||||
---|---|---|---|---|---|
Sumas |
Definición
La forma ajustada del Índice Rand, el Índice Rand Ajustado, es
más específicamente
dónde son valores de la tabla de contingencia.
Dado que el denominador es el número total de pares, el índice Rand representa la frecuencia de ocurrencia de acuerdos sobre el total de pares, o la probabilidad de que y acordará un par elegido al azar.
Evaluación de índices
Los diferentes índices dan diferentes valores de variación y pueden usarse para diferentes propósitos: varios se usan y critican especialmente en la literatura sociológica.
Si uno desea simplemente hacer comparaciones ordinales entre muestras (es una muestra más o menos variada que otra), la elección de IQV es relativamente menos importante, ya que a menudo darán el mismo orden.
Cuando los datos son ordinales, un método que puede ser útil para comparar muestras es ORDANOVA .
En algunos casos es útil no estandarizar un índice para que se ejecute de 0 a 1, independientemente del número de categorías o muestras ( Wilcox 1973 , págs. 338), pero generalmente así se estandariza.
Ver también
- ANOSIM
- Índice gamma de Baker
- Datos categóricos
- Índice de diversidad
- Índice Fowlkes-Mallows
- La gamma de Goodman y Kruskal
- Entropía de la información
- Distribución logarítmica
- PERMANOVA
- Métrica de Robinson-Foulds
- Diagrama de Shepard
- SONRISA BOBA
- Dispersión estadística
- Razón de variación
- Índice de Whipple
Notas
- ^ Esto solo puede suceder si el número de casos es un múltiplo del número de categorías.
- ^ Freemen LC (1965) Estadísticas aplicadas elementales . Nueva York: John Wiley and Sons págs. 40–43
- ^ Kendal MC, Stuart A (1958) La teoría avanzada de estadística. Hafner Publishing Company p. 46
- ^ Mueller JE, Schuessler KP (1961) Razonamiento estadístico en sociología. Boston: Compañía Houghton Mifflin. págs. 177-179
- [[[Wikipedia:Citing_sources|
page needed]] ="this_citation_requires_a_reference_to_the_specific_page_or_range_of_pages_in_which_the_material_appears. (may_2020)">]-5">^ Wilcox (1967) , pág. [ página necesaria ] . - ^ Kaiser HF (1968) "Una medida de la calidad de la población de la distribución legislativa". The American Political Science Review 62 (1) 208
- ^ Joel Gombin (18 de agosto de 2015). "qualvar: lanzamiento inicial (versión v0.1)" . Zenodo . doi : 10.5281 / zenodo.28341 .
- ^ Gibbs y Poston Jr (1975) .
- ^ Lieberson (1969) , p. 851.
- ^ IQV en xycoon
- ^ Hunter, PR; Gaston, MA (1988). "Índice numérico de la capacidad discriminatoria de los sistemas de tipificación: una aplicación del índice de diversidad de Simpson". J Clin Microbiol . 26 (11): 2465–2466.
- ^ Friedman WF (1925) La incidencia de la coincidencia y sus aplicaciones en el criptoanálisis. Documento técnico. Oficina del director de señales. Oficina de Imprenta del Gobierno de los Estados Unidos.
- ^ Gini CW (1912) Variabilidad y mutabilidad, contribución al estudio de distribuciones y relaciones estadísticas. Studi Economico-Giuricici della R. Universita de Cagliari
- ^ Simpson, EH (1949). "Medida de la diversidad" . Naturaleza . 163 (4148): 688. doi : 10.1038 / 163688a0 .
- ^ Bachi R (1956) Un análisis estadístico del resurgimiento del hebreo en Israel. En: Bachi R (ed) Scripta Hierosolymitana, Vol III, Jerusalem: Magnus press pp 179–247
- ^ Mueller JH, Schuessler KF (1961) Razonamiento estadístico en sociología. Boston: Houghton Mifflin
- ^ Gibbs, JP; Martin, WT (1962). "Urbanización, tecnología y división del trabajo: patrones internacionales". American Sociological Review . 27 (5): 667–677. doi : 10.2307 / 2089624 . JSTOR 2089624 .
- [[[Wikipedia:Citing_sources|
page needed]] ="this_citation_requires_a_reference_to_the_specific_page_or_range_of_pages_in_which_the_material_appears. (may_2020)">]-18">^ Lieberson (1969) , p. [ página necesaria ] . - ^ Blau P (1977) Desigualdad y heterogeneidad. Free Press, Nueva York
- ^ Perry M, Kader G (2005) Variación como unalikeability. Estadísticas de enseñanza 27 (2) 58–60
- ^ Greenberg, JH (1956). "La medición de la diversidad lingüística". Idioma . 32 (1): 109-115. doi : 10.2307 / 410659 . JSTOR 410659 .
- ^ Tesis doctoral de Lautard EH (1978). [ se necesita cita completa ]
- ^ Berger, WH; Parker, FL (1970). "Diversidad de forameníferos planctónicos en sedimentos de aguas profundas". Ciencia . 168 (3937): 1345-1347. doi : 10.1126 / science.168.3937.1345 . PMID 17731043 .
- ^ a b Hill, MO (1973). "Diversidad y uniformidad: una notación unificadora y sus consecuencias". Ecología . 54 (2): 427–431. doi : 10.2307 / 1934352 . JSTOR 1934352 .
- ^ Margalef R (1958) Sucesión temporal y heterogeneidad espacial en el fitoplancton. En: Perspectivas en biología marina. Buzzati-Traverso (ed.) Univ Calif Press, Berkeley págs. 323–347
- ^ Menhinick, EF (1964). "Una comparación de algunos índices de diversidad de especies-individuos aplicados a muestras de insectos de campo". Ecología . 45 (4): 859–861. doi : 10.2307 / 1934933 . JSTOR 1934933 .
- ^ Kuraszkiewicz W (1951) Nakladen Wroclawskiego Towarzystwa Naukowego
- ^ Guiraud P (1954) Les caractères statistiques du vocabulaire. Prensas Universitaires de France, París
- ^ Panas E (2001) The Generalized Torquist: Especificación y estimación de una nueva función de tamaño de vocabulario-texto. J Quant Ling 8 (3) 233–252
- ^ Kempton, RA; Taylor, LR (1976). "Modelos y estadísticas de diversidad de especies". Naturaleza . 262 (5571): 818–820. doi : 10.1038 / 262818a0 .
- ^ Hutcheson K (1970) Una prueba para comparar diversidades basada en la fórmula de Shannon. J Theo Biol 29: 151-154
- ^ Fisher RA, Corbet A, Williams CB (1943) La relación entre el número de especies y el número de individuos en una muestra aleatoria de una población animal. Animal Ecol 12: 42–58
- ^ Anscombe (1950) Teoría de muestreo de las distribuciones de series binomiales y logarítmicas negativas. Biometrika 37: 358–382
- ^ Fuerte, WL (2002). "Evaluación de la desigualdad de abundancia de especies dentro y entre comunidades de plantas". Ecología comunitaria . 3 (2): 237–246. doi : 10.1556 / comec.3.2002.2.9 .
- ^ Camargo JA (1993) ¿Debe aumentar la dominancia con el número de especies subordinadas en interacciones competitivas? J. Theor Biol 161537–542
- ^ Smith, Wilson (1996) [ cita completa necesaria ]
- ^ Bulla, L. (1994). "Un índice de uniformidad y su medida de diversidad asociada". Oikos . 70 (1): 167-171. doi : 10.2307 / 3545713 . JSTOR 3545713 .
- ^ Horn, HS (1966). "Medición de 'superposición' en estudios ecológicos comparativos". Soy Nat . 100 (914): 419–423. doi : 10.1086 / 282436 .
- ^ Siegel, Andrew F (2006) "Curvas de rarefacción". Enciclopedia de Ciencias Estadísticas 10.1002 / 0471667196.ess2195.pub2.
- ^ Caswell H (1976) Estructura de la comunidad: un análisis de modelo neutral. Ecol Monogr 46: 327–354
- ^ Poulin, R; Mouillot, D (2003). "La especialización de parásitos desde una perspectiva filogenética: un nuevo índice de especificidad de acogida". Parasitología . 126 (5): 473–480. CiteSeerX 10.1.1.574.7432 . doi : 10.1017 / s0031182003002993 .
- ^ Theil H (1972) Análisis de descomposición estadística. Ámsterdam: North-Holland Publishing Company>
- ^ Duncan OD, Duncan B (1955) Un análisis metodológico de los índices de segregación. Am Sociol Review, 20: 210–217
- ^ Gorard S, Taylor C (2002b) ¿Qué es la segregación? Una comparación de medidas en términos de invariancia composicional "fuerte" y "débil". Sociología, 36 (4), 875–895
- ^ Massey, DS; Denton, NA (1988). "Las dimensiones de la segregación residencial" . Fuerzas sociales . 67 (2): 281–315. doi : 10.1093 / sf / 67.2.281 .
- ^ Hutchens RM (2004) Una medida de segregación. Revista Económica Internacional 45: 555–578
- ^ Lieberson S (1981). "Un enfoque asimétrico de la segregación". En Peach C, Robinson V, Smith S (eds.). Segregación étnica en las ciudades . Londres: Croom Helm. págs. 61–82.
- ^ Bell, W (1954). "Un modelo de probabilidad para la medición de la segregación ecológica". Fuerzas sociales . 32 (4): 357–364. doi : 10.2307 / 2574118 . JSTOR 2574118 .
- ^ Ochiai A (1957) Estudios zoogeográficos sobre los peces soleoides encontrados en Japón y sus regiones vecinas. Bull Jpn Soc Sci Fish 22: 526–530
- ^ Kulczynski S (1927) Die Pflanzenassoziationen der Pieninen. Bulletin International de l'Académie Polonaise des Sciences et des Lettres, Classe des Sciences
- ^ Yule GU (1900) sobre la asociación de atributos en estadística. Philos Trans Roy Soc
- ^ Lienert GA y Sporer SL (1982) Interkorrelationen seltner Symptome mittels Nullfeldkorrigierter YuleKoeffizienten. Psychologische Beitrage 24: 411–418
- ^ Baroni-Urbani, C; Buser, MW (1976). "similitud de datos binarios". Biología sistemática . 25 (3): 251-259. doi : 10.2307 / 2412493 . JSTOR 2412493 .
- ^ Forbes SA (1907) sobre la distribución local de ciertos peces de Illinois: un ensayo sobre ecología estadística. Boletín del Laboratorio de Historia Natural del Estado de Illinois 7: 272–303
- ^ Alroy J (2015) Un nuevo giro en un coeficiente de similitud binaria muy antiguo. Ecología 96 (2) 575-586
- ^ Carl R. Hausman y Douglas R. Anderson (2012). Conversaciones sobre Peirce: Reales e ideales . Prensa de la Universidad de Fordham. pag. 221. ISBN 9780823234677.
- ^ Lance, GN; Williams, WT (1966). "Programas informáticos para clasificación politética jerárquica (" análisis de similitud ")" . Revista informática . 9 (1): 60–64. doi : 10.1093 / comjnl / 9.1.60 .
- ^ Lance, GN; Williams, WT (1967). "Programas clasificatorios de datos mixtos I.) Sistemas aglomerativos". Australian Computer Journal : 15-20.
- ^ Jaccard P (1902) Lois de distribution florale. Bulletin de la Socíeté Vaudoise des Sciences Naturelles 38: 67-130
- ^ Archer AW y Maples CG (1989) Respuesta de coeficientes binomiales seleccionados a diversos grados de escasez de matrices y matrices con interrelaciones de datos conocidas. Geología matemática 21: 741–753
- ^ a b Morisita M (1959) Midiendo la dispersión y el análisis de patrones de distribución. Memorias de la Facultad de Ciencias, Serie de la Universidad de Kyushu E. Biol 2: 215–235
- ^ Lloyd M (1967) Significa hacinamiento. J Anim Ecol 36: 1–30
- ^ Pedigo LP & Buntin GD (1994) Manual de métodos de muestreo para artrópodos en agricultura. CRC Boca Raton FL
- ^ Morisita M (1959) Medición de la dispersión y análisis de patrones de distribución. Memorias de la Facultad de Ciencias, Universidad de Kyushu, Serie E Biología. 2: 215-235
- ^ Horn, HS (1966). "Medición de" Superposición "en estudios ecológicos comparativos". El naturalista estadounidense . 100 (914): 419–424. doi : 10.1086 / 282436 .
- ^ Smith-Gill SJ (1975). "Base citofisiológica de patrones pigmentarios disruptivos en la rana leopardo Rana pipiens . II. Patrones específicos de células mutantes y de tipo salvaje". J Morphol . 146 : 35–54.
- ^ Peet (1974) Las medidas de diversidad de especies. Annu Rev Ecol Syst 5: 285–307
- ^ Tversky, Amos (1977). "Características de la similitud" (PDF) . Revisión psicológica . 84 (4): 327–352. doi : 10.1037 / 0033-295x.84.4.327 .
- ^ Jimenez S, Becerra C, Gelbukh A SOFTCARDINALITY-CORE: Mejorar la superposición del texto con medidas de distribución para la similitud textual semántica. Segunda Conferencia Conjunta sobre Semántica Léxica y Computacional (* SEM), Volumen 1: Actas de la conferencia principal y la tarea compartida: similitud textual semántica, p194-201. 7 al 8 de junio de 2013, Atlanta, Georgia, EE. UU.
- ^ Monostori K, Finkel R, Zaslavsky A, Hodasz G y Patke M (2002) Comparación de técnicas de detección de superposición. En: Actas de la Conferencia Internacional de Ciencias Computacionales de 2002. Notas de clase en Ciencias de la Computación 2329: 51-60
- ^ Bernstein Y y Zobel J (2004) Un sistema escalable para identificar documentos co-derivados. En: Actas de la 11a Conferencia internacional sobre procesamiento de cadenas y recuperación de información (SPIRE) 3246: 55-67
- ^ Prevosti, A; Ribo, G; Serra, L; Aguade, M; Balanya, J; Monclus, M; Mestres, F (1988). "Colonización de América por Drosophila subobscura : experimento en poblaciones naturales que apoya el papel adaptativo del polimorfismo de inversión cromosómica" . Proc Natl Acad Sci USA . 85 (15): 5597–5600. doi : 10.1073 / pnas.85.15.5597 . PMC 281806 . PMID 16593967 .
- ^ Sánchez, A; Ocaña, J; Utzetb, F; Serrac, L (2003). "Comparación de distancias genéticas de Prevosti". Revista de Planificación e Inferencia Estadística . 109 (1–2): 43–65. doi : 10.1016 / s0378-3758 (02) 00297-5 .
- ^ HaCohen-Kerner Y, Tayeb A y Ben-Dror N (2010) Detección de plagio simple en artículos de informática. En: Actas de la 23a Conferencia Internacional de Lingüística Computacional págs. 421-429
- ^ Leik R (1966) Una medida de consenso ordinal. Pacific sociological review 9 (2): 85–90
- ^ Manfredo M, Vaske, JJ, Teel TL (2003) El índice de potencial de conflicto: un enfoque gráfico de la importancia práctica de la investigación de las dimensiones humanas. Dimensiones humanas de la vida silvestre 8: 219-228
- ^ a b c Vaske JJ, Beaman J, Barreto H, Shelby LB (2010) Una extensión y una mayor validación del índice de potencial de conflicto. Ciencias del ocio 32: 240–254
- ^ Van der Eijk C (2001) Acuerdo de medición en escalas de calificación ordenadas. Calidad y cantidad 35 (3): 325–341
- ^ Von Mises R (1939) Uber Aufteilungs-und Besetzungs-Wahrcheinlichkeiten. Revue de la Facultd des Sciences de de I'Universite d'lstanbul NS 4: 145−163
- ^ Sevast'yanov BA (1972) Ley de límite de Poisson para un esquema de sumas de variables aleatorias dependientes. (traducción de SM Rudolfer) Teoría de la probabilidad y sus aplicaciones, 17: 695−699
- ^ Hoaglin DC, Mosteller, F y Tukey, JW (1985) Explorando tablas de datos, tendencias y formas, Nueva York: John Wiley
- ^ a b WM Rand (1971). "Criterios objetivos para la evaluación de métodos de agrupamiento". Revista de la Asociación Estadounidense de Estadística . 66 (336): 846–850. arXiv : 1704.01036 . doi : 10.2307 / 2284239 . JSTOR 2284239 .
- ^ Lawrence Hubert y Phipps Arabie (1985). "Comparación de particiones". Revista de clasificación . 2 (1): 193–218. doi : 10.1007 / BF01908075 .
- ^ Nguyen Xuan Vinh, Julien Epps y James Bailey (2009). "Medidas teóricas de la información para la comparación de agrupaciones: ¿Es necesaria una corrección por azar?" (PDF) . ICML '09: Actas de la 26a Conferencia Internacional Anual sobre Aprendizaje Automático . ACM. págs. 1073–1080. Archivado desde el original (PDF) el 25 de marzo de 2012.PDF .
- ^ Wagner, Silke; Wagner, Dorothea (12 de enero de 2007). "Comparación de agrupaciones: una descripción general" (PDF) . Consultado el 14 de febrero de 2018 .
Referencias
- Gibbs, Jack P .; Poston Jr, Dudley L. (marzo de 1975), "The Division of Labor: Conceptualization and Related Measures", Social Forces , 53 (3): 468–476, CiteSeerX 10.1.1.1028.4969 , doi : 10.2307 / 2576589 , JSTOR 2576589
- Lieberson, Stanley (diciembre de 1969), "Measuring Population Diversity", American Sociological Review , 34 (6): 850–862, doi : 10.2307 / 2095977 , JSTOR 2095977
- Swanson, David A. (septiembre de 1976), "A Sampling Distribution and Significance Test for Differences in Qualitative Variation", Social Forces , 55 (1): 182-184, doi : 10.2307 / 2577102 , JSTOR 2577102
- Wilcox, Allen R. (octubre de 1967). Índices de variación cualitativa (PDF) (Informe). Archivado desde el original (PDF) el 15 de agosto de 2007.
- Wilcox, Allen R. (junio de 1973). "Índices de variación cualitativa y medición política". The Western Political Quarterly . 26 (2): 325–343. doi : 10.2307 / 446831 . JSTOR 446831 .