Los datos agrupados son datos formados agregando observaciones individuales de una variable en grupos, de modo que una distribución de frecuencia de estos grupos sirve como un medio conveniente para resumir o analizar los datos. Hay dos tipos principales de agrupación: agrupación de datos de una variable unidimensional, reemplazando números individuales por recuentos en agrupaciones ; y agrupar variables multidimensionales por alguna de las dimensiones (especialmente por variables independientes ), obteniendo la distribución de dimensiones desagrupadas (especialmente las variables dependientes ).
Ejemplo [ editar ]
La idea de datos agrupados se puede ilustrar considerando el siguiente conjunto de datos sin procesar:
20 | 25 | 24 | 33 | 13 | 26 | 8 | 19 | 31 | 11 | dieciséis | 21 | 17 | 11 | 34 | 14 | 15 | 21 | 18 | 17 |
Los datos anteriores se pueden agrupar para construir una distribución de frecuencia de varias formas. Un método consiste en utilizar intervalos como base.
El valor más pequeño en los datos anteriores es 8 y el más grande es 34. El intervalo de 8 a 34 se divide en subintervalos más pequeños (llamados intervalos de clase ). Para cada intervalo de clase, se cuenta el número de elementos de datos que caen en este intervalo. Este número se llama la frecuencia de ese intervalo de clase. Los resultados se tabulan como una tabla de frecuencias de la siguiente manera:
Tiempo empleado (en segundos) | Frecuencia |
---|---|
5 ≤ t <10 | 1 |
10 ≤ t <15 | 4 |
15 ≤ t <20 | 6 |
20 ≤ t <25 | 4 |
25 ≤ t <30 | 2 |
30 ≤ t <35 | 3 |
Otro método para agrupar los datos es utilizar algunas características cualitativas en lugar de intervalos numéricos. Por ejemplo, suponga que en el ejemplo anterior hay tres tipos de estudiantes: 1) por debajo de lo normal, si el tiempo de respuesta es de 5 a 14 segundos, 2) normal si está entre 15 y 24 segundos y 3) por encima de lo normal si es de 25 segundos o más, entonces los datos agrupados se ven así:
Frecuencia | |
---|---|
Debajo de lo normal | 5 |
Normal | 10 |
Por encima de lo normal | 5 |
Otro ejemplo más de agrupación de datos es el uso de algunos valores numéricos de uso común, que de hecho son "nombres" que asignamos a las categorías. Por ejemplo, observemos la distribución por edades de los estudiantes en una clase. Los estudiantes pueden tener 10 años, 11 años o 12 años. Estos son los grupos de edad, 10, 11 y 12. Tenga en cuenta que los estudiantes en el grupo de edad 10 son de 10 años y 0 días, a 10 años y 364 días de edad, y su edad promedio es de 10,5 años si nos fijamos en la edad. en una escala continua. Los datos agrupados se ven así:
Envejecer | Frecuencia |
---|---|
10 | 10 |
11 | 20 |
12 | 10 |
Media de datos agrupados [ editar ]
Una estimación`` de la media de la población de la que se extraen los datos se puede calcular a partir de los datos agrupados como:
En esta fórmula, x se refiere al punto medio de los intervalos de clase y f es la frecuencia de clase. Tenga en cuenta que el resultado de esto será diferente de la media muestral de los datos desagrupados. La media de los datos agrupados en el ejemplo anterior se puede calcular de la siguiente manera:
Intervalos de clase | Frecuencia ( f ) | Punto medio ( x ) | fx |
---|---|---|---|
5 y más, menos de 10 | 1 | 7.5 | 7.5 |
10 ≤ t <15 | 4 | 12,5 | 50 |
15 ≤ t <20 | 6 | 17,5 | 105 |
20 ≤ t <25 | 4 | 22,5 | 90 |
25 ≤ t <30 | 2 | 27,5 | 55 |
30 ≤ t <35 | 3 | 32,5 | 97,5 |
TOTAL | 20 | 405 |
Por tanto, la media de los datos agrupados es
La media de los datos agrupados en el ejemplo 4 anterior se puede calcular de la siguiente manera:
Grupo de edad | Frecuencia ( f ) | Punto medio ( x ) | fx |
---|---|---|---|
10 | 10 | 10,5 | 105 |
11 | 20 | 11,5 | 230 |
12 | 10 | 12,5 | 125 |
TOTAL | 40 | 460 |
Por tanto, la media de los datos agrupados es
Ver también [ editar ]
- Información agregada
- Binning de datos
- Partición de un conjunto
- Nivel de medida
- Distribución de frecuencias
- Discretización de funciones continuas
- Regresión logística § Estimador de chi-cuadrado mínimo para datos agrupados
Este artículo incluye una lista de referencias generales , pero permanece en gran parte sin verificar porque carece de suficientes citas en línea correspondientes . ( Junio de 2010 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla ) |
Notas [ editar ]
umeshnikita123 />
Referencias [ editar ]
- Newbold, P .; Carlson, W .; Thorne, B. (2009). Estadística para la economía y la empresa (Séptima ed.). Educación Pearson. ISBN 978-0-13-507248-6.