El estimador de razón es un parámetro estadístico y se define como la razón de las medias de dos variables aleatorias. Las estimaciones de razón están sesgadas y se deben hacer correcciones cuando se utilizan en trabajos experimentales o de encuestas. Las estimaciones de razón son asimétricas y las pruebas simétricas, como la prueba t , no deben usarse para generar intervalos de confianza.
El sesgo es del orden O (1 / n ) (consulte la notación O grande ), por lo que a medida que aumenta el tamaño de la muestra ( n ), el sesgo se acercará asintóticamente a 0. Por lo tanto, el estimador es aproximadamente insesgado para tamaños de muestra grandes.
Definición
Supongamos que hay dos características - x y Y - que pueden ser observados para cada elemento de la muestra en el conjunto de datos. La razón R es
La estimación de razón de un valor de la variable y ( θ y ) es
donde θ x es el valor correspondiente de la variable x . Se sabe que θ y tiene una distribución asintóticamente normal. [1]
Propiedades estadísticas
La proporción de muestra ( r ) se estima a partir de la muestra
Que la razón está sesgada se puede demostrar con la desigualdad de Jensen de la siguiente manera (asumiendo la independencia entre xey):
En el muestreo aleatorio simple, el sesgo es del orden O ( n −1 ). El coeficiente de variación (la relación entre la desviación estándar y la media ) proporciona un límite superior del sesgo relativo de la estimación . [2] En el muestreo aleatorio simple, el sesgo relativo es O ( n −1/2 ).
Corrección del sesgo de la media
Los métodos de corrección, en función de la distribución de la X y Y variables aleatorias, difieren en su eficacia por lo que es difícil recomendar un conjunto mejor método. Debido a que las estimaciones de r están sesgadas, se debe utilizar una versión corregida en todos los cálculos posteriores.
Una corrección del sesgo con precisión de primer orden es [ cita requerida ]
donde m x es la media de la variable x y es ab es la covarianza entre una y b .
Para simplificar la notación s ab será utilizado posteriormente para denotar la covarianza entre la variables aleatorias una y b .
Otro estimador basado en la expansión de Taylor es
donde n es el tamaño de muestra, N es el tamaño de la población, m x es la media de la variable x , s x 2 y s y 2 son la muestra variaciones de la x y la y variables aleatorias, respectivamente, y ρ es la correlación de la muestra entre el x y y variables aleatorias.
Una versión computacionalmente más simple pero un poco menos precisa de este estimador es
donde N es el tamaño de la población, n es el tamaño de la muestra, m x es la media de la x variate, s x 2 y s y 2 son la muestra variaciones de la x y la y variables aleatorias, respectivamente, y ρ es la correlación de la muestra entre el x y y variables aleatorias. Estas versiones difieren solo en el factor en el denominador ( N - 1). Para un N grande, la diferencia es insignificante.
Una corrección de segundo orden es [3]
También se han propuesto otros métodos de corrección de sesgos. Para simplificar la notación se utilizarán las siguientes variables
Estimador de Pascual: [4]
Estimador de Beale: [5]
Estimador de Tin: [6]
Estimador de Sahoo: [7]
Sahoo también ha propuesto una serie de estimadores adicionales: [8]
Si m x y m y son ambos mayores que 10, entonces la siguiente aproximación es correcta para ordenar O ( n −3 ). [3]
Un estimador asintóticamente correcto es [9]
Estimación de navaja
Una estimación cortante de la relación está menos sesgada que la forma ingenua. Un estimador de navaja de la relación es
donde n es el tamaño de la muestra y r i se estiman con la omisión de un par de variables a la vez. [10]
Un método alternativo es dividir la muestra en g grupos cada uno de tamaño p con n = pg . [11] Sea r i la estimación del i- ésimo grupo. Entonces el estimador
tiene un sesgo de como máximo O ( n -2 ).
Otros estimadores basados en la división de la muestra en g grupos son: [12]
dónde es la media de las relaciones r g de los grupos gy
donde r i ' es el valor de la relación muestral con el i- ésimo grupo omitido.
Otros métodos de estimación
Otros métodos para estimar un estimador de razón incluyen la máxima verosimilitud y el bootstrapping . [10]
Estimación del total
El total estimado de la variable y ( τ y ) es
donde ( τ x ) es el total de la variable x .
Estimaciones de varianza
La varianza de la proporción de la muestra es aproximadamente:
donde s x 2 y s y 2 son las varianzas de las x y y variables aleatorias respectivamente, m x y m y son los medios de la x y la y variables aleatorias, respectivamente, y s ab es la covarianza de una y b .
Aunque el estimador de varianza aproximado de la razón que se proporciona a continuación está sesgado, si el tamaño de la muestra es grande, el sesgo en este estimador es insignificante.
donde N es el tamaño de la población, n es el tamaño de la muestra y m x es la media de la variable x .
Otro estimador de la varianza basado en la expansión de Taylor es
donde n es el tamaño de la muestra, N es el tamaño de la población y ρ es el coeficiente de correlación entre la x y y variables aleatorias.
Una estimación precisa para O ( n −2 ) es [9]
Si la distribución de probabilidad es de Poisson, un estimador con precisión de O ( n −3 ) es [3]
Un estimador de navaja de la varianza es
donde r i es la relación con el i- ésimo par de variantes omitidas y r J es la estimación de la relación. [10]
Varianza del total
La varianza del total estimado es
Varianza de la media
La varianza de la media estimada de la variable y es
donde m x es la media de la x variate, s x 2 y s y 2 son la muestra varianzas de las x y y variables aleatorias, respectivamente, y ρ es la correlación de la muestra entre la x y y variables aleatorias.
Oblicuidad
La asimetría y la curtosis de la relación depende de las distribuciones de la x y la y variables aleatorias. Se han realizado estimaciones de estos parámetros para distribuidas normalmente x y y variables aleatorias pero para otras distribuciones no hay expresiones todavía se han derivado. Se ha encontrado que, en general, las variables de razón están sesgadas a la derecha, son leptocúrticas y su anormalidad aumenta cuando aumenta la magnitud del coeficiente de variación del denominador .
Para una distribución normal x y y variables aleatorias la asimetría de la relación es aproximadamente [6]
dónde
Efecto sobre los intervalos de confianza
Debido a que la estimación de la razón generalmente está sesgada, los intervalos de confianza creados con la varianza y las pruebas simétricas como la prueba t son incorrectas. [10] Estos intervalos de confianza tienden a sobrestimar el tamaño del intervalo de confianza izquierdo y subestiman el tamaño del derecho.
Si el estimador de razón es unimodal (que suele ser el caso), se puede hacer una estimación conservadora de los intervalos de confianza del 95% con la desigualdad de Vysochanskiï-Petunin .
Métodos alternativos de reducción de sesgos
Un método alternativo para reducir o eliminar el sesgo en el estimador de razón es alterar el método de muestreo. La varianza de la razón utilizando estos métodos difiere de las estimaciones dadas anteriormente. Tenga en cuenta que aunque muchas aplicaciones, como las que se explican en Lohr [13], están destinadas a restringirse únicamente a números enteros positivos , como el tamaño de los grupos de muestra, el método Midzuno-Sen funciona para cualquier secuencia de números positivos, integrales o no. No está claro qué significa que el método de Lahiri funcione, ya que devuelve un resultado sesgado.
El método de Lahiri
El primero de estos esquemas de muestreo es un doble uso de un método de muestreo introducido por Lahiri en 1951. [14] El algoritmo aquí se basa en la descripción de Lohr. [13]
- Elija un número M = max ( x 1 , ..., x N ) donde N es el tamaño de la población.
- Elija i al azar de una distribución uniforme en [1, N ].
- Elija k al azar de una distribución uniforme en [1, M ].
- Si k ≤ x i , entonces x i se retiene en la muestra. Si no es así, se rechaza.
- Repita este proceso desde el paso 2 hasta obtener el tamaño de muestra deseado.
El mismo procedimiento para el mismo tamaño de muestra deseado se lleva a cabo con la variable y .
El esquema de Lahiri como lo describe Lohr tiene un alto sesgo y, por lo tanto, es interesante solo por razones históricas. En su lugar, se recomienda la técnica Midzuno-Sen descrita a continuación.
El método de Midzuno-Sen
En 1952, Midzuno y Sen describieron de forma independiente un esquema de muestreo que proporciona un estimador insesgado de la razón. [15] [16]
La primera muestra se elige con probabilidad proporcional al tamaño de la variable x . Las n - 1 muestras restantes se eligen al azar sin reemplazo de los restantes N - 1 miembros de la población. La probabilidad de selección bajo este esquema es
donde X es la suma de las N x variables y x i son los n miembros de la muestra. A continuación, la relación de la suma de la Y variables aleatorias y la suma de la x variables aleatorias elegido de esta manera es una estimación no sesgada del estimador de razón.
En simbolos tenemos
donde x i y y i se eligen de acuerdo con el esquema descrito anteriormente.
El estimador de razón proporcionado por este esquema es insesgado.
Särndal, Swensson y Wretman dan crédito a Lahiri, Midzuno y Sen por los conocimientos que llevaron a este método [17], pero la técnica de Lahiri tiene un alto sesgo.
Otros estimadores de razón
Tin (1965) [18] describió y comparó los estimadores de razón propuestos por Beale (1962) [19] y Quenouille (1956) [20] y propuso un enfoque modificado (ahora denominado método de Tin). Estos estimadores de razón se utilizan comúnmente para calcular cargas contaminantes a partir de muestreos de vías fluviales, particularmente donde el flujo se mide con más frecuencia que la calidad del agua. Por ejemplo, véase Quilbe et al., (2006) [21].
Regresión ordinaria de mínimos cuadrados
Si una relación lineal entre la x y y existe variables aleatorias y la regresión ecuación pasa por el origen entonces la varianza estimada de la ecuación de regresión es siempre menor que la del estimador de razón. La relación precisa entre las varianzas depende de la linealidad de la relación entre la x y y variables aleatorias: cuando la relación es distinto de la estimación lineal relación puede tener una varianza inferior a la estimada por regresión.
Usos
Aunque el estimador de razones puede ser útil en varios entornos, es de particular utilidad en dos casos:
- cuando la variables aleatorias x y y son altamente correlacionados a través del origen
- cuando se desconoce el tamaño total de la población
Historia
El primer uso conocido del estimador de razón lo hizo John Graunt en Inglaterra, quien en 1662 fue el primero en estimar la razón y / x donde y representaba la población total yx el número total conocido de nacimientos registrados en las mismas áreas durante el año anterior. .
Más tarde, Messance (~ 1765) y Moheau (1778) publicaron estimaciones muy cuidadosamente preparadas para Francia basadas en la enumeración de la población en ciertos distritos y en el recuento de nacimientos, muertes y matrimonios según lo informado para todo el país. Los distritos a partir de los cuales se determinó la relación entre habitantes y nacimientos solo constituyeron una muestra.
En 1802, Laplace deseaba estimar la población de Francia. No se había realizado ningún censo de población y Laplace carecía de los recursos para contar a cada individuo. En su lugar, muestreó 30 parroquias cuyo número total de habitantes era 2.037.615. Se consideró que los registros de bautismo parroquiales eran estimaciones fiables del número de nacidos vivos, por lo que utilizó el número total de nacimientos durante un período de tres años. La muestra estimada fue de 71 866,333 bautismos por año durante este período, lo que da una proporción de un bautismo registrado por cada 28,35 personas. El número total de registros bautismales de Francia también estaba disponible para él y supuso que la proporción de nacidos vivos por población era constante. Luego usó la proporción de su muestra para estimar la población de Francia.
Karl Pearson dijo en 1897 que las estimaciones de la proporción están sesgadas y advirtió contra su uso. [22]
Ver también
- Marcar y recuperar , otra forma de estimar la población usando una razón.
- Distribución de razón
Referencias
- ^ Scott AJ, Wu CFJ (1981) Sobre la distribución asintótica de estimadores de razón y regresión. JASA 76: 98–102
- ^ Cochran WG (1977) Técnicas de muestreo. Nueva York: John Wiley & Sons
- ^ a b c Ogliore RC, Huss GR, Nagashima K (2011) Estimación de la relación en el análisis SIMS. Instrumentos y métodos nucleares en la investigación de la física Sección B: Interacciones del haz con materiales y átomos 269 (17) 1910-1918
- ^ Pascual JN (1961) Estimadores de razón insesgada en muestreo estratificado. JASA 56 (293): 70–87
- ^ Beale EML (1962) Algún uso de computadoras en la investigación operativa. Organización Industrielle 31: 27-28
- ^ a b Tin M (1965) Comparación de algunos estimadores de razón. JASA 60: 294–307
- ^ Sahoo LN (1983). Sobre un método de reducción de sesgos en la estimación de razones. J Statist Res 17: 1—6
- ^ Sahoo LN (1987) Sobre una clase de estimadores casi insesgados para la proporción de población. Estadísticas 18: 119-121
- ^ a b van Kempen GMP, van Vliet LJ (2000) Media y varianza de los estimadores de relación utilizados en la obtención de imágenes de relación de fluorescencia. Citometría 39: 300-305
- ^ a b c d Choquet D, L'ecuyer P, Léger C (1999) Intervalos de confianza de Bootstrap para los índices de expectativas. Transacciones de ACM sobre modelado y simulación por computadora - TOMACS 9 (4) 326-348 doi : 10.1145 / 352222.352224
- ^ Durbin J (1959) Una nota sobre la aplicación del método de reducción de sesgos de Quenouille a la estimación de proporciones. Biometrika 46: 477-480
- ^ Mickey MR (1959) Algunos estimadores de regresión y razón insesgada de población finita. JASA 54: 596–612
- ^ a b Lohr S (2010) Muestreo - Diseño y análisis (segunda edición)
- ^ Lahiri DB (1951) Un método de selección de la muestra que proporciona estimaciones de razón insesgadas. Bull Int Stat Inst 33: 133–140
- ^ Midzuno H (1952) Sobre el sistema de muestreo con probabilidad proporcional a la suma de los tamaños. Ann Inst Stat Math 3: 99-107
- ^ Sen AR (1952) Estado actual del muestreo probabilístico y su uso en la estimación de una característica. Econometrika 20-103
- ^ Särndal, CE, B Swensson J Wretman (1992) Modelo de muestreo asistido por encuestas. Springer, §7.3.1 (iii)
- ^ Estaño M (1965). Comparación de algunos estimadores de razón. Revista de la Asociación Estadounidense de Estadística, 60 (309), 294-307. https://doi.org/10.1080/01621459.1965.10480792
- ^ Beale EML (1965) Algún uso de computadoras en la investigación operativa. Organización industrial 31: 27-8
- ^ Quenouille R Rousseau AN Duchemin M Poulin A Gangbazo G Villeneuve JP (2006) Selección de un método de cálculo para estimar las cargas de sedimentos y nutrientes en arroyos: aplicación al río Beaurivage (Quebec, Canadá). Revista de hidrología 326: 295-310
- ^ Quilbé, R., Rousseau, AN, Duchemin, M., Poulin, A., Gangbazo, G. y Villeneuve, JP (2006). Selección de un método de cálculo para estimar las cargas de sedimentos y nutrientes en arroyos: Aplicación al río Beaurivage (Québec, Canadá). Journal of Hydrology, 326 (1–4), 295–310. https://doi.org/10.1016/j.jhydrol.2005.11.008
- ^ Pearson K (1897) Sobre una forma de correlación espuria que puede surgir cuando se utilizan índices para la medición de órganos. Proc Roy Soc Lond 60: 498