Regresión de Deming

En estadística , la regresión de Deming , que lleva el nombre de W. Edwards Deming , es un modelo de errores en las variables que intenta encontrar la línea de mejor ajuste para un conjunto de datos bidimensionales. Se diferencia de la regresión lineal simple en que da cuenta de los errores en las observaciones tanto en el x - y el y - eje. Es un caso especial de mínimos cuadrados totales , que permite cualquier número de predictores y una estructura de error más complicada.

Regresión de Deming. Las líneas rojas muestran el error tanto en x como en y . Esto es diferente del método tradicional de mínimos cuadrados que mide el error paralelo al eje y . El caso mostrado, con desviaciones medidas perpendicularmente, surge cuando los errores en x y y tener varianzas iguales.

La regresión de Deming es equivalente a la estimación de máxima verosimilitud de un modelo de errores en las variables en el que se supone que los errores de las dos variables son independientes y están distribuidos normalmente , y se conoce la razón de sus varianzas, denotada como δ . ^[1] En la práctica, esta relación podría estimarse a partir de fuentes de datos relacionadas; sin embargo, el procedimiento de regresión no tiene en cuenta los posibles errores al estimar esta razón.

La regresión de Deming es solo un poco más difícil de calcular que la regresión lineal simple . La mayoría de los paquetes de software estadístico utilizados en química clínica ofrecen regresión de Deming.

El modelo fue introducido originalmente por Adcock (1878) quien consideró el caso δ = 1, y luego más generalmente por Kummell (1879) con δ arbitrario . Sin embargo, sus ideas pasaron desapercibidas durante más de 50 años, hasta que fueron revividas por Koopmans (1937) y luego propagadas aún más por Deming (1943) . Este último libro se hizo tan popular en química clínica y campos relacionados que el método incluso se denominó regresión de Deming en esos campos. ^[2]

Especificación

Suponga que los datos disponibles ( y _i , x _i ) son observaciones medidas de los valores "verdaderos" ( y _i * , x _i * ), que se encuentran en la línea de regresión:

{\ Displaystyle {\ begin {alineado} y_ {i} & = y_ {i} ^ {*} + \ varepsilon _ {i}, \\ x_ {i} & = x_ {i} ^ {*} + \ eta _ {i}, \ end {alineado}}}

donde los errores ε y η son independientes y se supone que se conoce la razón de sus varianzas:

{\ Displaystyle \ delta = {\ frac {\ sigma _ {\ varepsilon} ^ {2}} {\ sigma _ {\ eta} ^ {2}}}.}

En la práctica, las variaciones de la ${\ Displaystyle x}$ y ${\ Displaystyle y}$ Los parámetros a menudo se desconocen, lo que complica la estimación de ${\ Displaystyle \ delta}$ . Tenga en cuenta que cuando el método de medición para ${\ Displaystyle x}$ y ${\ Displaystyle y}$ es el mismo, es probable que estas variaciones sean iguales, por lo que ${\ Displaystyle \ delta = 1}$ para este caso.

Buscamos encontrar la línea de "mejor ajuste"

{\ Displaystyle y ^ {*} = \ beta _ {0} + \ beta _ {1} x ^ {*},}

de manera que la suma ponderada de los residuos cuadrados del modelo se minimice: ^[3]

{\ Displaystyle SSR = \ sum _ {i = 1} ^ {n} {\ bigg (} {\ frac {\ varepsilon _ {i} ^ {2}} {\ sigma _ {\ varepsilon} ^ {2}} } + {\ frac {\ eta _ {i} ^ {2}} {\ sigma _ {\ eta} ^ {2}}} {\ bigg)} = {\ frac {1} {\ sigma _ {\ varepsilon } ^ {2}}} \ sum _ {i = 1} ^ {n} {\ Big (} (y_ {i} - \ beta _ {0} - \ beta _ {1} x_ {i} ^ {* }) ^ {2} + \ delta (x_ {i} -x_ {i} ^ {*}) ^ {2} {\ Big)} \ \ to \ \ min _ {\ beta _ {0}, \ beta _ {1}, x_ {1} ^ {*}, \ ldots, x_ {n} ^ {*}} SSR}

Consulte Jensen (2007) ^[4] para obtener una derivación completa.

Solución

La solución se puede expresar en términos de momentos muestrales de segundo grado. Es decir, primero calculamos las siguientes cantidades (todas las sumas van de i = 1 an ):

{\ Displaystyle {\ begin {alineado} & {\ overline {x}} = {\ frac {1} {n}} \ sum x_ {i}, \ quad {\ overline {y}} = {\ frac {1 } {n}} \ sum y_ {i}, \\ & s_ {xx} = {\ tfrac {1} {n-1}} \ sum (x_ {i} - {\ overline {x}}) ^ {2 }, \\ & s_ {xy} = {\ tfrac {1} {n-1}} \ sum (x_ {i} - {\ overline {x}}) (y_ {i} - {\ overline {y}} ), \\ & s_ {yy} = {\ tfrac {1} {n-1}} \ sum (y_ {i} - {\ overline {y}}) ^ {2}. \ end {alineado}}}

Finalmente, las estimaciones de mínimos cuadrados de los parámetros del modelo serán ^[5]

{\ Displaystyle {\ begin {alineado} & {\ hat {\ beta}} _ {1} = {\ frac {s_ {yy} - \ delta s_ {xx} + {\ sqrt {(s_ {yy} - \ " delta s_ {xx}) ^ {2} +4 \ delta s_ {xy} ^ {2}}}} {2s_ {xy}}}, \\ & {\ hat {\ beta}} _ {0} = { \ overline {y}} - {\ hat {\ beta}} _ {1} {\ overline {x}}, \\ & {\ hat {x}} _ {i} ^ {*} = x_ {i} + {\ frac {{\ hat {\ beta}} _ {1}} {{\ hat {\ beta}} _ {1} ^ {2} + \ delta}} (y_ {i} - {\ hat { \ beta}} _ {0} - {\ hat {\ beta}} _ {1} x_ {i}). \ end {alineado}}}

Regresión ortogonal

Para el caso de varianzas de error iguales, es decir, cuando ${\ Displaystyle \ delta = 1}$ , La regresión de Deming se convierte en regresión ortogonal : minimiza la suma de las distancias perpendiculares al cuadrado desde los puntos de datos hasta la línea de regresión . En este caso, denote cada observación como un punto z _j en el plano complejo (es decir, el punto ( x _j , y _j ) se escribe como z _j = x _j + iy _j donde i es la unidad imaginaria ). Denote como Z la suma de las diferencias al cuadrado de los puntos de datos desde el centroide (también denotado en coordenadas complejas), que es el punto cuyas ubicaciones horizontal y vertical son los promedios de las de los puntos de datos. Entonces: ^[6]

Si Z = 0, entonces cada línea que atraviesa el centroide es una línea de mejor ajuste ortogonal.
Si Z ≠ 0, la recta de regresión ortogonal pasa por el centroide y es paralela al vector desde el origen hasta ${\ Displaystyle {\ sqrt {Z}}}$ .

Coolidge dio una representación trigonométrica de la línea de regresión ortogonal en 1913. ^[7]

Solicitud

En el caso de tres puntos no colineales en el plano, el triángulo con estos puntos como vértices tiene una inelipse de Steiner única que es tangente a los lados del triángulo en sus puntos medios. El eje mayor de esta elipse cae en la línea de regresión ortogonal para los tres vértices. ^[8]

Ver también

Ajuste de línea

Notas

↑ ( Linnet 1993 )
^ Cornbleet, Gochman (1979)
↑ Fuller, capítulo 1.3.3
^ Jensen, Anders Christian (2007)
^ Glaister (2001)
^ Minda y Phelps (2008), Teorema 2.3.
^ Coolidge, JL (1913).
^ Minda y Phelps (2008), Corolario 2.4.

Referencias

Adcock, RJ (1878). "Un problema de mínimos cuadrados". El analista . Annals of Mathematics. 5 (2): 53–54. doi : 10.2307 / 2635758 . JSTOR 2635758 .
Coolidge, JL (1913). "Dos aplicaciones geométricas de la matemática de mínimos cuadrados". The American Mathematical Monthly . 20 (6): 187-190. doi : 10.2307 / 2973072 .
Cornbleet, PJ; Gochman, N. (1979). "Coeficientes de regresión de mínimos cuadrados incorrectos". Clin. Chem . 25 (3): 432–438. PMID 262186 .
Deming, WE (1943). Ajuste estadístico de datos . Wiley, NY (edición de Publicaciones de Dover, 1985). ISBN 0-486-64685-8.
Fuller, Wayne A. (1987). Modelos de error de medida . John Wiley & Sons, Inc. ISBN 0-471-86187-1.
Glaister, P. (2001). "Mínimos cuadrados revisitados". La Gaceta Matemática . 85 : 104-107. doi : 10.2307 / 3620485 .
Jensen, Anders Christian (2007). "Regresión de Deming, paquete MethComp" (PDF) .
Koopmans, TC (1937). Análisis de regresión lineal de series de tiempo económicas . DeErven F. Bohn, Haarlem, Países Bajos.
Kummell, CH (1879). "Reducción de ecuaciones de observación que contienen más de una cantidad observada". El analista . Annals of Mathematics. 6 (4): 97-105. doi : 10.2307 / 2635646 . JSTOR 2635646 .
Linnet, K. (1993). "Evaluación de procedimientos de regresión para estudios de comparación de métodos" . Química clínica . 39 (3): 424–432. PMID 8448852 .
Minda, D .; Phelps, S. (2008). "Triángulos, elipses y polinomios cúbicos" (PDF) . American Mathematical Monthly . 115 (8): 679–689. Señor 2456092 .^{[ enlace muerto permanente ]}

[1] ( Linnet 1993 )

[2] Cornbleet, Gochman (1979)

[3] Fuller, capítulo 1.3.3

[4] Jensen, Anders Christian (2007)

[5] Glaister (2001)

[6] Minda y Phelps (2008), Teorema 2.3.

[7] Coolidge, JL (1913).

[8] Minda y Phelps (2008), Corolario 2.4.

[1]