Estadísticas

La estadística es la disciplina que se ocupa de la recopilación, organización, análisis, interpretación y presentación de datos . ^[1]^[2]^[3] Al aplicar las estadísticas a un problema científico, industrial o social, es convencional comenzar con una población estadística o un modelo estadístico a estudiar. Las poblaciones pueden ser diversos grupos de personas u objetos como "todas las personas que viven en un país" o "cada átomo que compone un cristal". Las estadísticas se ocupan de todos los aspectos de los datos, incluida la planificación de la recopilación de datos en términos del diseño de encuestas y experimentos . ^[4]

Cuando no se pueden recopilar datos del censo , los estadísticos recopilan datos mediante el desarrollo de diseños de experimentos específicos y muestras de encuestas . El muestreo representativo asegura que las inferencias y conclusiones puedan extenderse razonablemente de la muestra a la población como un todo. Un estudio experimental implica tomar medidas del sistema bajo estudio, manipular el sistema y luego tomar medidas adicionales usando el mismo procedimiento para determinar si la manipulación ha modificado los valores de las medidas. Por el contrario, un estudio observacional no implica manipulación experimental.

En el análisis de datos se utilizan dos métodos estadísticos principales : la estadística descriptiva , que resume los datos de una muestra mediante índices como la media o la desviación estándar , y la estadística inferencial , que extrae conclusiones de los datos que están sujetos a variaciones aleatorias (p. ej., errores de observación, variación de muestreo). ^[5] Las estadísticas descriptivas se ocupan con mayor frecuencia de dos conjuntos de propiedades de una distribución (muestra o población): la tendencia central (o ubicación ) busca caracterizar el valor central o típico de la distribución, mientras que la dispersión (ovariabilidad ) caracteriza la medida en que los miembros de la distribución se apartan de su centro y se apartan entre sí. Las inferencias sobre estadística matemática se realizan bajo el marco de la teoría de la probabilidad , que se ocupa del análisis de fenómenos aleatorios.

Un procedimiento estadístico estándar implica la recopilación de datos que conducen a la prueba de la relación entre dos conjuntos de datos estadísticos, o un conjunto de datos y datos sintéticos extraídos de un modelo idealizado. Se propone una hipótesis para la relación estadística entre los dos conjuntos de datos, y se compara como una alternativa a una hipótesis nula idealizada de ausencia de relación entre dos conjuntos de datos. El rechazo o refutación de la hipótesis nula se realiza mediante pruebas estadísticas que cuantifican el sentido en que se puede demostrar que la nula es falsa, dados los datos que se utilizan en la prueba. A partir de una hipótesis nula, se reconocen dos formas básicas de error: errores de tipo I (la hipótesis nula se rechaza falsamente dando un "falso positivo") yErrores de tipo II (la hipótesis nula no se rechaza y se pasa por alto una relación real entre las poblaciones dando un "falso negativo"). ^[6] Se han asociado múltiples problemas con este marco, que van desde obtener un tamaño de muestra suficiente hasta especificar una hipótesis nula adecuada. ^[5]

Los procesos de medición que generan datos estadísticos también están sujetos a error. Muchos de estos errores se clasifican como aleatorios (ruido) o sistemáticos ( sesgo ), pero también pueden ocurrir otros tipos de errores (p. ej., errores garrafales, como cuando un analista informa unidades incorrectas). La presencia de datos faltantes o la censura pueden dar lugar a estimaciones sesgadas y se han desarrollado técnicas específicas para abordar estos problemas.

La estadística es un cuerpo matemático de la ciencia que pertenece a la recopilación, análisis, interpretación o explicación y presentación de datos , ^[7] o como una rama de las matemáticas . ^[8] Algunos consideran que la estadística es una ciencia matemática distinta en lugar de una rama de las matemáticas. Si bien muchas investigaciones científicas hacen uso de datos, la estadística se ocupa del uso de datos en el contexto de la incertidumbre y la toma de decisiones frente a la incertidumbre. ^[9]^[10]

La distribución normal , una densidad de probabilidad muy común , útil debido al teorema del límite central .

Los diagramas de dispersión se usan en estadísticas descriptivas para mostrar las relaciones observadas entre diferentes variables, aquí usando el conjunto de datos de flores de Iris .

Gerolamo Cardano , pionero en las matemáticas de la probabilidad.

Karl Pearson , uno de los fundadores de la estadística matemática.

Un ajuste por mínimos cuadrados: en rojo los puntos a ajustar, en azul la recta ajustada.

Intervalos de confianza : la línea roja es el valor verdadero de la media en este ejemplo, las líneas azules son intervalos de confianza aleatorios para 100 realizaciones.

En este gráfico, la línea negra es la distribución de probabilidad para la estadística de prueba , la región crítica es el conjunto de valores a la derecha del punto de datos observado (valor observado de la estadística de prueba) y el valor p está representado por el área verde.

El problema de la variable de confusión : X e Y pueden estar correlacionados, no porque exista una relación causal entre ellos, sino porque ambos dependen de una tercera variable Z. Z se llama factor de confusión.

gretl , un ejemplo de un paquete estadístico de código abierto