Censura (estadísticas)

En estadística , la censura es una condición en la que el valor de una medición u observación solo se conoce parcialmente.

Por ejemplo, suponga que se realiza un estudio para medir el impacto de una droga en la tasa de mortalidad . En un estudio de este tipo, se puede saber que la edad de un individuo al morir es de al menos 75 años (pero puede ser más). Tal situación podría ocurrir si el individuo se retira del estudio a los 75 años, o si el individuo está vivo actualmente a los 75 años.

La censura también ocurre cuando un valor ocurre fuera del rango de un instrumento de medición . Por ejemplo, una báscula de baño solo puede medir hasta 140 kilogramos (310 libras). Si se pesa un individuo de 160 kg (350 lb) con la báscula, el observador solo sabrá que el peso del individuo es de al menos 140 kilogramos (310 lb).

El problema de los datos censurados, en los que se conoce parcialmente el valor observado de alguna variable, está relacionado con el problema de los datos faltantes , donde se desconoce el valor observado de alguna variable.

La censura no debe confundirse con el truncamiento de ideas relacionado . Con la censura, las observaciones dan como resultado conocer el valor exacto que se aplica o saber que el valor se encuentra dentro de un intervalo . Con el truncamiento, las observaciones nunca dan como resultado valores fuera de un rango dado: los valores en la población fuera del rango nunca se ven o nunca se registran si se ven. Tenga en cuenta que en las estadísticas, el truncamiento no es lo mismo que el redondeo .

Tipos [ editar ]

Censura a la izquierda : un punto de datos está por debajo de un cierto valor, pero se desconoce en qué medida.
Censura de intervalo : un punto de datos se encuentra en algún lugar de un intervalo entre dos valores.
Censura por la derecha : un punto de datos está por encima de un cierto valor, pero se desconoce en qué medida.
La censura de tipo I ocurre si un experimento tiene un número determinado de sujetos o elementos y detiene el experimento en un momento predeterminado, momento en el que los sujetos restantes son censurados por la derecha.
La censura de tipo II ocurre si un experimento tiene un número determinado de sujetos o elementos y detiene el experimento cuando se observa que un número predeterminado ha fallado; los sujetos restantes son luego censurados por la derecha.
La censura aleatoria (o no informativa ) es cuando cada sujeto tiene un tiempo de censura que es estadísticamente independiente de su tiempo de falla. El valor observado es el mínimo de los tiempos de censura y falla; los sujetos cuyo tiempo de falla es mayor que su tiempo de censura son censurados por la derecha.

La censura de intervalo puede ocurrir cuando la observación de un valor requiere seguimientos o inspecciones. La censura de izquierda y derecha son casos especiales de censura de intervalo, con el comienzo del intervalo en cero o el final en el infinito, respectivamente.

Los métodos de estimación para usar datos censurados por la izquierda varían, y no todos los métodos de estimación pueden ser aplicables a todos los conjuntos de datos o ser los más confiables. ^[1]

Un error común con los datos de intervalo de tiempo es clasificar como intervalos censurados a la izquierda donde se desconoce la hora de inicio. En estos casos, tenemos un límite inferior en el intervalo de tiempo , por lo que los datos están censurados a la derecha (¡a pesar de que el punto de inicio que falta está a la izquierda del intervalo conocido cuando se ve como una línea de tiempo!).

Análisis [ editar ]

Se pueden utilizar técnicas especiales para manejar datos censurados. Las pruebas con tiempos de falla específicos se codifican como fallas reales; Los datos censurados se codifican según el tipo de censura y el intervalo o límite conocido. Los programas de software especiales (a menudo orientados a la confiabilidad ) pueden realizar una estimación de máxima verosimilitud para estadísticas resumidas, intervalos de confianza, etc.

Epidemiología [ editar ]

Uno de los primeros intentos de analizar un problema estadístico que involucraba datos censurados fue el análisis de 1766 de Daniel Bernoulli sobre los datos de morbilidad y mortalidad de la viruela para demostrar la eficacia de la vacunación . ^[2] Un artículo inicial que utilizó el estimador de Kaplan-Meier para estimar los costos censurados fue Quesenberry et al. (1989), ^[3] sin embargo, Lin et al. ^{[4] a} menos que todos los pacientes acumularan costos con una función de tasa determinista común a lo largo del tiempo, propusieron una técnica de estimación alternativa conocida como estimador de Lin. ^[5]

Prueba de vida útil [ editar ]

Ejemplo de cinco pruebas repetidas que dieron como resultado cuatro fallas y un tiempo de suspensión.

Las pruebas de confiabilidad a menudo consisten en realizar una prueba en un artículo (bajo condiciones específicas) para determinar el tiempo que tarda en ocurrir una falla.

A veces se planifica y se espera una falla, pero no ocurre: error del operador, mal funcionamiento del equipo, anomalía de la prueba, etc. El resultado de la prueba no fue el tiempo de falla deseado, pero puede (y debe) usarse como un tiempo de falla. terminación. El uso de datos censurados es involuntario pero necesario.
A veces, los ingenieros planifican un programa de prueba para que, después de un cierto límite de tiempo o número de fallas, todas las demás pruebas terminen. Estos tiempos suspendidos se tratan como datos censurados por la derecha. El uso de datos censurados es intencional.

Un análisis de los datos de las pruebas repetidas incluye tanto el tiempo de falla para los elementos que fallaron como el tiempo de terminación de la prueba para aquellos que no fallaron.

Regresión censurada [ editar ]

James Tobin propuso en 1958 un modelo anterior de regresión censurada , el modelo tobit . ^[6]

Probabilidad [ editar ]

La verosimilitud es la probabilidad o densidad de probabilidad de lo observado, visto como una función de parámetros en un modelo asumido. Supongamos que estamos interesados en los tiempos de supervivencia , pero no observamos para todos . En cambio, observamos ${\ Displaystyle T_ {1}, T_ {2}, ..., T_ {n}}$ ${\ Displaystyle T_ {i}}$ ${\ Displaystyle i}$

{\ Displaystyle (U_ {i}, \ delta _ {i})}

, con y si se observa realmente, y

{\ Displaystyle U_ {i} = T_ {i}}

{\ Displaystyle \ delta _ {i} = 1}

{\ Displaystyle T_ {i}}

{\ Displaystyle (U_ {i}, \ delta _ {i})}

, con y si todo lo que sabemos es que es más largo que .

{\ Displaystyle U_ {i} <T_ {i}}

{\ Displaystyle \ delta _ {i} = 0}

{\ Displaystyle T_ {i}}

{\ Displaystyle U_ {i}}

Cuando se llama tiempo de censura . ^[7] ${\ Displaystyle T_ {i}> U_ {i}, U_ {i}}$

Si los tiempos de censura son todas constantes conocidas, entonces la probabilidad es

{\ Displaystyle L = \ prod _ {i, \ delta _ {i} = 1} f (u_ {i}) \ prod _ {i, \ delta _ {i} = 0} S (u_ {i})}

donde = la función de densidad de probabilidad evaluada en , ${\ Displaystyle f (u_ {i})}$ ${\ Displaystyle u_ {i}}$

y = la probabilidad que es mayor que , llamada función de supervivencia . ${\ Displaystyle S (u_ {i})}$ ${\ Displaystyle T_ {i}}$ ${\ Displaystyle u_ {i}}$

Esto se puede simplificar definiendo la función de riesgo , la fuerza instantánea de mortalidad, como

{\ Displaystyle \ lambda (u) = f (u) / S (u)}

asi que

{\ Displaystyle f (u) = \ lambda (u) S (u)}

.

Entonces

{\ Displaystyle L = \ prod _ {i} \ lambda (u_ {i}) ^ {\ delta _ {i}} S (u_ {i})}

.

Para la distribución exponencial , esto se vuelve aún más simple, porque la tasa de riesgo,, es constante y . Luego: ${\ Displaystyle \ lambda}$ $S(u)=\exp(-\lambda u)$

L(\lambda )=\lambda ^{k}\exp(-\lambda \sum {u_{i}})

,

donde . $k=\sum {\delta _{i}}$

A partir de esto, calculamos fácilmente la estimación de máxima verosimilitud (MLE) de la siguiente manera: ${\hat {\lambda }}$ $\lambda$

l(\lambda )=\log(L(\lambda ))=k\log(\lambda )-\lambda \sum {u_{i}}

.

Entonces

dl/d\lambda =k/\lambda -\sum {u_{i}}

.

Establecemos esto en 0 y resolvemos para obtener: $\lambda$

{\hat {\lambda }}=k/\sum u_{i}

.

De manera equivalente, el tiempo medio para fallar es:

1/{\hat {\lambda }}=\sum u_{i}/k

.

Esto difiere del MLE estándar para la distribución exponencial en que las observaciones censuradas se consideran solo en el numerador.

Ver también [ editar ]

Análisis de los datos
Límite de detección
Imputación (estadísticas)
Ponderación de probabilidad inversa
Sesgo de muestreo
Aritmética de saturación
Análisis de supervivencia
Winsorising

Referencias [ editar ]

^ Helsel, D. (2010). "Mucho ruido y pocas nueces: incorporar no detectados en la ciencia" . Annals of Occupational Hygiene . 54 (3): 257–262. doi : 10.1093 / annhyg / mep092 . PMID 20032004 .
↑ Bernoulli, D. (1766). "Essai d'une nouvelle analyse de la mortalité causée par la petite vérole". Mem. Matemáticas. Phy. Acad. Roy. Sci. París , reimpreso en Bradley (1971) 21 y Blower (2004)
↑ Quesenberry, CP, Jr .; et al. (1989). "Un análisis de supervivencia de la hospitalización entre pacientes con síndrome de inmunodeficiencia adquirida" . Revista estadounidense de salud pública . 79 (12): 1643–1647. doi : 10.2105 / AJPH.79.12.1643 . PMC 1349769 . PMID 2817192 .
^ Lin, DY; et al. (1997). "Estimación de los costos médicos a partir de datos de seguimiento incompletos". Biometría . 53 (2): 419–434. doi : 10.2307 / 2533947 . JSTOR 2533947 . PMID 9192444 .
^ Wijeysundera, HC; et al. (2012). "Técnicas para estimar los costos de la atención médica con datos censurados: una visión general para el investigador de servicios de salud" . Investigación en Economía Clínica y Resultados . 4 : 145-155. doi : 10.2147 / CEOR.S31552 . PMC 3377439 . PMID 22719214 .
^ Tobin, James (1958). "Estimación de relaciones para variables dependientes limitadas" (PDF) . Econometrica . 26 (1): 24–36. doi : 10.2307 / 1907382 . JSTOR 1907382 .
^ Lu Tian, Construcción de probabilidad, Inferencia para distribuciones de supervivencia paramétricas (PDF) , Wikidata Q98961801 .

Lectura adicional [ editar ]

Blower, S. (2004), D, Bernoulli " " Un intento de un nuevo análisis de la mortalidad causada por la viruela y de las ventajas de la inoculación para prevenirla " (PDF) . Archivado desde el original (PDF) en 2017-08 -08 . Consultado el 25 de junio de 2019 . (146 KiB ) ", Reseñas de virolología médica , 14 : 275–288
Bradley, L. (1971). Inoculación contra la viruela: una controversia matemática del siglo XVIII . Nottingham. ISBN 0-902031-23-6.
Mann, NR ; et al. (1975). Métodos de análisis estadístico de confiabilidad y datos de vida . Nueva York: Wiley. ISBN 047156737X.
Bagdonavicius, V., Kruopis, J., Nikulin, MS (2011), "Pruebas no paramétricas para datos censurados", Londres, ISTE / WILEY, ISBN 9781848212893 .

Enlaces externos [ editar ]

"Manual de estadísticas de ingeniería", NIST / SEMATEK, [1]

[1] Helsel, D. (2010). "Mucho ruido y pocas nueces: incorporar no detectados en la ciencia" . Annals of Occupational Hygiene . 54 (3): 257–262. doi : 10.1093 / annhyg / mep092 . PMID 20032004 .

[2] Bernoulli, D. (1766). "Essai d'une nouvelle analyse de la mortalité causée par la petite vérole". Mem. Matemáticas. Phy. Acad. Roy. Sci. París , reimpreso en Bradley (1971) 21 y Blower (2004)

[3] Quesenberry, CP, Jr .; et al. (1989). "Un análisis de supervivencia de la hospitalización entre pacientes con síndrome de inmunodeficiencia adquirida" . Revista estadounidense de salud pública . 79 (12): 1643–1647. doi : 10.2105 / AJPH.79.12.1643 . PMC 1349769 . PMID 2817192 .

[4] Lin, DY; et al. (1997). "Estimación de los costos médicos a partir de datos de seguimiento incompletos". Biometría . 53 (2): 419–434. doi : 10.2307 / 2533947 . JSTOR 2533947 . PMID 9192444 .

[5] Wijeysundera, HC; et al. (2012). "Técnicas para estimar los costos de la atención médica con datos censurados: una visión general para el investigador de servicios de salud" . Investigación en Economía Clínica y Resultados . 4 : 145-155. doi : 10.2147 / CEOR.S31552 . PMC 3377439 . PMID 22719214 .

[6] Tobin, James (1958). "Estimación de relaciones para variables dependientes limitadas" (PDF) . Econometrica . 26 (1): 24–36. doi : 10.2307 / 1907382 . JSTOR 1907382 .

[7] Lu Tian, Construcción de probabilidad, Inferencia para distribuciones de supervivencia paramétricas (PDF) , Wikidata Q98961801 .

[1]