La media aritmética ponderada es similar a una media aritmética ordinaria (el tipo más común de promedio ), excepto que en lugar de que cada uno de los puntos de datos contribuya por igual al promedio final, algunos puntos de datos contribuyen más que otros. La noción de media ponderada juega un papel en la estadística descriptiva y también se presenta de forma más general en varias otras áreas de las matemáticas.
Si todos los pesos son iguales, entonces la media ponderada es la misma que la media aritmética . Si bien las medias ponderadas generalmente se comportan de manera similar a las medias aritméticas, tienen algunas propiedades contrarias a la intuición, como se captura, por ejemplo, en la paradoja de Simpson .
Ejemplos de
Ejemplo básico
Dadas dos clases escolares, una con 20 estudiantes y otra con 30 estudiantes, las calificaciones en cada clase en una prueba fueron:
- Clase de la mañana = 62, 67, 71, 74, 76, 77, 78, 79, 79, 80, 80, 81, 81, 82, 83, 84, 86, 89, 93, 98
- Clase de la tarde = 81, 82, 83, 84, 85, 86, 87, 87, 88, 88, 89, 89, 89, 90, 90, 90, 90, 91, 91, 91, 92, 92, 93, 93 , 94, 95, 96, 97, 98, 99
La media de la clase de la mañana es 80 y la media de la clase de la tarde es 90. La media no ponderada de las dos medias es 85. Sin embargo, esto no tiene en cuenta la diferencia en el número de estudiantes en cada clase (20 frente a 30); por lo tanto, el valor de 85 no refleja la calificación promedio del estudiante (independientemente de la clase). La calificación promedio del estudiante se puede obtener promediando todas las calificaciones, sin tener en cuenta las clases (sume todas las calificaciones y divida por el número total de estudiantes):
O, esto se puede lograr ponderando las medias de la clase por el número de estudiantes en cada clase. A la clase más grande se le da más "peso":
Por tanto, la media ponderada permite encontrar la nota media de los alumnos sin conocer la puntuación de cada alumno. Solo se necesitan las medias de la clase y el número de estudiantes en cada clase.
Ejemplo de combinación convexa
Dado que solo los pesos relativos son relevantes, cualquier media ponderada se puede expresar utilizando coeficientes que sumen uno. Esta combinación lineal se llama combinación convexa .
Usando el ejemplo anterior, obtendríamos los siguientes pesos:
Luego, aplique los pesos así:
Definición matemática
Formalmente, la media ponderada de un conjunto múltiple finito no vacío de datoscon los correspondientes pesos no negativos es
que se expande a:
Por lo tanto, los elementos de datos con un peso alto contribuyen más a la media ponderada que los elementos con un peso bajo. Los pesos no pueden ser negativos. Algunos pueden ser cero, pero no todos (ya que no se permite la división por cero).
Las fórmulas se simplifican cuando los pesos se normalizan de manera que suman , es decir:
- .
Para tales pesos normalizados, la media ponderada es entonces:
- .
Tenga en cuenta que siempre se pueden normalizar los pesos haciendo la siguiente transformación en los pesos originales:
- .
El uso del peso normalizado produce los mismos resultados que cuando se utilizan los pesos originales:
La media ordinaria es un caso especial de la media ponderada donde todos los datos tienen pesos iguales.
El error estándar de la media ponderada (variaciones de entrada unitarias) ,se puede demostrar mediante la propagación de la incertidumbre que es:
Propiedades estadísticas
La media muestral ponderada, , es en sí misma una variable aleatoria. Su valor esperado y su desviación estándar están relacionados con los valores esperados y las desviaciones estándar de las observaciones, como sigue. Para simplificar, asumimos pesos normalizados (pesos que suman uno).
Si las observaciones tienen valores esperados
entonces la media de la muestra ponderada tiene expectativa
En particular, si las medias son iguales, , entonces la expectativa de la media de la muestra ponderada será ese valor,
Para observaciones no correlacionadas con variaciones , la varianza de la media de la muestra ponderada es [ cita requerida ]
cuya raíz cuadrada se puede llamar el error estándar de la media ponderada (caso general) . [ cita requerida ]
En consecuencia, si todas las observaciones tienen la misma varianza, , la media muestral ponderada tendrá varianza
dónde . La varianza alcanza su valor máximo,, cuando todos los pesos excepto uno son cero. Su valor mínimo se encuentra cuando todos los pesos son iguales (es decir, media no ponderada), en cuyo caso tenemos, es decir, degenera en el error estándar de la media al cuadrado.
Tenga en cuenta que debido a que siempre se pueden transformar pesos no normalizados en pesos normalizados, todas las fórmulas de esta sección se pueden adaptar a pesos no normalizados reemplazando todos .
Pesos de varianza
Para la media ponderada de una lista de datos para los que cada elemento potencialmente proviene de una distribución de probabilidad diferente con varianza conocida , una posible elección para las ponderaciones viene dada por el recíproco de la varianza:
La media ponderada en este caso es:
y el error estándar de la media ponderada (con pesos de varianza) es:
Tenga en cuenta que esto se reduce a cuando todo . Es un caso especial de la fórmula general del apartado anterior,
Las ecuaciones anteriores se pueden combinar para obtener:
La importancia de esta elección es que esta media ponderada es el estimador de máxima verosimilitud de la media de las distribuciones de probabilidad bajo el supuesto de que son independientes y normalmente distribuidas con la misma media.
Corrección de la dispersión excesiva o insuficiente
Las medias ponderadas se utilizan normalmente para encontrar la media ponderada de los datos históricos, en lugar de los datos generados teóricamente. En este caso, habrá algún error en la varianza de cada punto de datos. Normalmente, los errores experimentales pueden subestimarse debido a que el experimentador no tiene en cuenta todas las fuentes de error al calcular la varianza de cada punto de datos. En este caso, la varianza en la media ponderada debe corregirse para tener en cuenta el hecho de queEs demasiado largo. La corrección que debe hacerse es
dónde es el chi-cuadrado reducido :
La raíz cuadrada se puede llamar el error estándar de la media ponderada (pesos de varianza, escala corregida) .
Cuando todas las variaciones de datos son iguales, , se cancelan en la varianza media ponderada, , que nuevamente se reduce al error estándar de la media (al cuadrado),, formulado en términos de la desviación estándar de la muestra (al cuadrado),
Validación de bootstrapping
Se ha demostrado mediante métodos de arranque que la siguiente es una estimación precisa del cuadrado del error estándar de la media (caso general): [1]
dónde . Una mayor simplificación conduce a
Varianza de la muestra ponderada
Normalmente, cuando se calcula una media, es importante conocer la varianza y la desviación estándar de esa media. Cuando una media ponderada se utiliza, la varianza de la muestra ponderada es diferente de la varianza de la muestra no ponderada.
La varianza de la muestra ponderada sesgada se define de manera similar a la varianza muestral sesgada normal:
dónde para pesos normalizados. Si las ponderaciones son ponderaciones de frecuencia (y por tanto son variables aleatorias), se puede demostrar que es el estimador de máxima verosimilitud de para iid observaciones gaussianas.
Para muestras pequeñas, se acostumbra utilizar un estimador insesgado para la varianza de la población. En muestras normales no ponderadas, el N en el denominador (correspondiente al tamaño de la muestra) se cambia a N - 1 (ver la corrección de Bessel ). En el escenario ponderado, hay dos estimadores insesgados diferentes, uno para el caso de ponderaciones de frecuencia y otro para el caso de ponderaciones de confiabilidad .
Pesos de frecuencia
Si las ponderaciones son ponderaciones de frecuencia (donde una ponderación es igual al número de ocurrencias), el estimador insesgado es:
Esto aplica efectivamente la corrección de Bessel para ponderaciones de frecuencia.
Por ejemplo, si los valores se extraen de la misma distribución, entonces podemos tratar este conjunto como una muestra no ponderada, o podemos tratarlo como la muestra ponderada con pesos correspondientes , y obtenemos el mismo resultado de cualquier manera.
Si la frecuencia pondera se normalizan a 1, entonces la expresión correcta después de la corrección de Bessel se convierte en
donde el número total de muestras es (no ). En cualquier caso, la información sobre el número total de muestras es necesaria para obtener una corrección insesgada, incluso si tiene un significado diferente a la ponderación de frecuencia.
Tenga en cuenta que el estimador puede ser insesgado solo si los pesos no están estandarizados ni normalizados , estos procesos cambian la media y la varianza de los datos y, por lo tanto, conducen a una pérdida de la tasa base (el recuento de población, que es un requisito para la corrección de Bessel).
Pesos de confiabilidad
Si las ponderaciones son en cambio no aleatorias ( ponderaciones de confiabilidad [ definición necesaria ] ), podemos determinar un factor de corrección para producir un estimador insesgado. Suponiendo que cada variable aleatoria se muestrea de la misma distribución con media y varianza real , tomando las expectativas que tenemos,
dónde y . Por lo tanto, el sesgo en nuestro estimador es, análogo al sesgo en el estimador no ponderado (observe también que es el tamaño de muestra efectivo ). Esto significa que para eliminar el sesgo de nuestro estimador, necesitamos dividir previamente por, asegurando que el valor esperado de la varianza estimada sea igual a la varianza real de la distribución muestral.
La estimación final insesgada de la varianza muestral es:
- , [2]
dónde .
Los grados de libertad de la varianza de la muestra no sesgada ponderada varían en consecuencia desde N - 1 hasta 0.
La desviación estándar es simplemente la raíz cuadrada de la varianza anterior.
Como nota al margen, se han descrito otros enfoques para calcular la varianza de la muestra ponderada. [3]
Covarianza de la muestra ponderada
En una muestra ponderada, cada vector de fila (a cada conjunto de observaciones individuales en cada una de las K variables aleatorias) se le asigna un peso.
Entonces el vector de media ponderada es dado por
Y la matriz de covarianza ponderada viene dada por: [4]
De manera similar a la varianza de la muestra ponderada, hay dos estimadores insesgados diferentes según el tipo de ponderaciones.
Pesos de frecuencia
Si las ponderaciones son ponderaciones de frecuencia , la estimación ponderada insesgada de la matriz de covarianza, con la corrección de Bessel, viene dada por: [4]
Tenga en cuenta que este estimador puede ser insesgado solo si los pesos no están estandarizados ni normalizados , estos procesos cambian la media y la varianza de los datos y, por lo tanto, conducen a una pérdida de la tasa base (el recuento de población, que es un requisito para la corrección de Bessel).
Pesos de confiabilidad
En el caso de las ponderaciones de fiabilidad , las ponderaciones se normalizan :
(Si no es así, divida los pesos por su suma para normalizarlos antes de calcular :
Entonces el vector de media ponderada se puede simplificar a
y la estimación ponderada insesgada de la matriz de covarianzaes: [5]
El razonamiento aquí es el mismo que en la sección anterior.
Dado que asumimos que los pesos están normalizados, entonces y esto se reduce a:
Si todos los pesos son iguales, es decir , entonces la media ponderada y la covarianza se reducen a la media muestral no ponderada y la covarianza anterior.
Estimaciones con valores vectoriales
Lo anterior se generaliza fácilmente al caso de tomar la media de estimaciones con valores vectoriales. Por ejemplo, las estimaciones de la posición en un plano pueden tener menos certeza en una dirección que en otra. Como en el caso escalar, la media ponderada de múltiples estimaciones puede proporcionar una estimación de máxima verosimilitud . Simplemente reemplazamos la varianzapor la matriz de covarianza y la aritmética inversa por la matriz inversa (ambos denotados de la misma manera, mediante superíndices); la matriz de peso luego dice: [6]
La media ponderada en este caso es:
(donde el orden del producto matriz-vector no es conmutativo ), en términos de la covarianza de la media ponderada:
Por ejemplo, considere la media ponderada del punto [1 0] con alta varianza en el segundo componente y [0 1] con alta varianza en el primer componente. Luego
entonces la media ponderada es:
lo que tiene sentido: la estimación [1 0] es "compatible" en el segundo componente y la estimación [0 1] cumple en el primer componente, por lo que la media ponderada es casi [1 1].
Contabilización de correlaciones
En el caso general, suponga que , es la matriz de covarianza que relaciona las cantidades, es la media común que se va a estimar, y es una matriz de diseño igual a un vector de unos (de longitud ). El teorema de Gauss-Markov establece que la estimación de la media con varianza mínima viene dada por:
y
dónde:
Disminución de la fuerza de las interacciones
Considere la serie de tiempo de una variable independiente y una variable dependiente , con observaciones muestreadas en momentos discretos . En muchas situaciones comunes, el valor de en el momento Depende no solo de sino también de sus valores pasados. Comúnmente, la fuerza de esta dependencia disminuye a medida que aumenta la separación de observaciones en el tiempo. Para modelar esta situación, se puede reemplazar la variable independiente por su media móvil para un tamaño de ventana .
Pesos decrecientes exponencialmente
En el escenario descrito en la sección anterior, con mayor frecuencia la disminución de la fuerza de interacción obedece a una ley exponencial negativa. Si las observaciones se muestrean en momentos equidistantes, entonces la disminución exponencial es equivalente a disminuir en una fracción constante.en cada paso de tiempo. Configuración podemos definir pesos normalizados por
dónde es la suma de los pesos no normalizados. En este caso es simple
que se acerca para grandes valores de .
La constante de amortiguación debe corresponder a la disminución real de la fuerza de interacción. Si esto no se puede determinar a partir de consideraciones teóricas, entonces las siguientes propiedades de pesos decrecientes exponencialmente son útiles para hacer una elección adecuada: en el paso, el peso es aproximadamente igual , el área de la cola el valor , el área de la cabeza . El área de la cola en el paso es . Donde principalmente el más cercano las observaciones importan y el efecto de las observaciones restantes se puede ignorar de forma segura, luego elija de modo que el área de la cola sea suficientemente pequeña.
Promedios ponderados de funciones
El concepto de promedio ponderado se puede extender a funciones. [7] Los promedios ponderados de funciones juegan un papel importante en los sistemas de cálculo diferencial e integral ponderado. [8]
Ver también
- Promedio
- Tendencia central
- Significar
- Desviación Estándar
- Resumen estadístico
- Función de peso
- Costo de capital promedio ponderado
- Media geométrica ponderada
- Media armónica ponderada
- Mínimos cuadrados ponderados
- Mediana ponderada
- Ponderación
- Error estándar de la estimación de una proporción cuando se utilizan datos ponderados
Referencias
- ^ Gatz, Donald F .; Smith, Luther (junio de 1995). "El error estándar de una concentración media ponderada: I. Bootstrapping frente a otros métodos". Ambiente atmosférico . 29 (11): 1185-1193. doi : 10.1016 / 1352-2310 (94) 00210-C .- enlace pdf
- ^ "Biblioteca científica GNU - Manual de referencia: muestras ponderadas" . Gnu.org . Consultado el 22 de diciembre de 2017 .
- ^ "Error estándar ponderado y su impacto en las pruebas de significación (WinCross frente a Quantum y SPSS), Dr. Albert Madansky" (PDF) . Analyticalgroup.com . Consultado el 22 de diciembre de 2017 .
- ^ a b Price, George R. (abril de 1972). "Extensión de las matemáticas de selección de covarianza" (PDF) . Annals of Human Genetics . 35 (4): 485–490. doi : 10.1111 / j.1469-1809.1957.tb01874.x .
- ^ Mark Galassi, Jim Davies, James Theiler, Brian Gough, Gerard Jungman, Michael Booth y Fabrice Rossi. Biblioteca científica GNU - Manual de referencia, versión 1.15 , 2011. Sec. 21.7 Muestras ponderadas
- ^ James, Frederick (2006). Métodos estadísticos en física experimental (2ª ed.). Singapur: World Scientific. pag. 324. ISBN 981-270-527-9.
- ^ GH Hardy, JE Littlewood y G. Pólya. Desigualdades (2a ed.), Cambridge University Press, ISBN 978-0-521-35880-4 , 1988.
- ^ Jane Grossman, Michael Grossman, Robert Katz. Los primeros sistemas de cálculo diferencial e integral ponderado , ISBN 0-9771170-1-4 , 1980.
Otras lecturas
- Bevington, Philip R (1969). Reducción de datos y análisis de errores para las ciencias físicas . Nueva York, NY: McGraw-Hill. OCLC 300283069 .
- Strutz, T. (2010). Ajuste de datos e incertidumbre (una introducción práctica a los mínimos cuadrados ponderados y más) . Vieweg + Teubner. ISBN 978-3-8348-1022-9.
enlaces externos
- David Terr. "Media ponderada" . MathWorld .
- Herramienta para calcular el promedio ponderado