Muestra aleatoria simple

En estadística , una muestra aleatoria simple es un subconjunto de individuos (una muestra ) elegidos de un conjunto más grande (una población ) en el que cada individuo se elige al azar y completamente al azar. Más específicamente, cada individuo tiene la misma probabilidad de ser elegido en cualquier etapa durante el proceso de muestreo, y cada subconjunto de k individuos tiene la misma probabilidad de ser elegido para la muestra que cualquier otro subconjunto de k individuos. ^[1] Este proceso y técnica se conoce como muestreo aleatorio simple.y no debe confundirse con el muestreo aleatorio sistemático . Una muestra aleatoria simple es una técnica de encuesta no sesgada.

El muestreo aleatorio simple es un tipo básico de muestreo, ya que puede ser un componente de otros métodos de muestreo más complejos. El principio del muestreo aleatorio simple es que cada objeto tiene la misma probabilidad de ser elegido. Por ejemplo, supongamos que N estudiantes universitarios quieren obtener un boleto para un juego de baloncesto, pero solo hay X < N boletos para ellos, por lo que deciden tener una manera justa de ver quién puede ir. Luego, a todos se les da un número en el rango de 0 a N -1, y se generan números aleatorios, ya sea electrónicamente o de una tabla de números aleatorios. Los números fuera del rango de 0 a N -1 se ignoran, al igual que cualquier número seleccionado previamente. Los primeros números X identificarían a los afortunados ganadores de boletos.

En poblaciones pequeñas y, a menudo, en poblaciones grandes, este tipo de muestreo se realiza típicamente " sin reemplazo ", es decir, se evita deliberadamente elegir a cualquier miembro de la población más de una vez. Aunque el muestreo aleatorio simple se puede realizar con reemplazo, esto es menos común y normalmente se describiría más completamente como muestreo aleatorio simple con reemplazo . El muestreo realizado sin reemplazo ya no es independiente, pero aún satisface la intercambiabilidad , por lo que muchos resultados aún se mantienen. Además, para una muestra pequeña de una población grande, el muestreo sin reemplazo es aproximadamente lo mismo que el muestreo con reemplazo, ya que la probabilidad de elegir al mismo individuo dos veces es baja.

Una selección aleatoria imparcial de individuos es importante para que, si se extrajeran muchas muestras, la muestra promedio representaría con precisión a la población. Sin embargo, esto no garantiza que una muestra en particular sea una representación perfecta de la población. El muestreo aleatorio simple simplemente permite sacar conclusiones externas válidas sobre toda la población basada en la muestra.

Conceptualmente, el muestreo aleatorio simple es la más simple de las técnicas de muestreo probabilístico. Requiere un marco de muestreo completo , que puede no estar disponible o no ser factible de construir para poblaciones grandes. Incluso si se dispone de un marco completo, pueden ser posibles enfoques más eficientes si se dispone de otra información útil sobre las unidades de la población.

Las ventajas son que está libre de errores de clasificación y requiere un conocimiento mínimo previo de la población distinta del marco. Su simplicidad también hace que sea relativamente fácil interpretar los datos recopilados de esta manera. Por estas razones, el muestreo aleatorio simple se adapta mejor a situaciones en las que no hay mucha información disponible sobre la población y la recopilación de datos se puede realizar de manera eficiente sobre elementos distribuidos al azar, o donde el costo del muestreo es lo suficientemente pequeño como para que la eficiencia sea menos importante que la simplicidad. Si estas condiciones no se cumplen, el muestreo estratificado o el muestreo por conglomerados pueden ser una mejor opción.

Algoritmos

Se han desarrollado varios algoritmos eficientes para el muestreo aleatorio simple. ^[2]^[3] Un algoritmo ingenuo es el algoritmo de dibujo por dibujo en el que en cada paso eliminamos el elemento en ese paso del conjunto con la misma probabilidad y colocamos el elemento en la muestra. Continuamos hasta tener muestra del tamaño deseado ${\ Displaystyle k}$ . El inconveniente de este método es que requiere un acceso aleatorio en el conjunto.

El algoritmo de selección-rechazo desarrollado por Fan et al. en 1962 ^[4] requiere una sola pasada de datos; sin embargo, es un algoritmo secuencial y requiere conocimiento del recuento total de elementos ${\ Displaystyle n}$ , que no está disponible en escenarios de transmisión.

Sunter probó un algoritmo de ordenación aleatoria muy simple en 1977. ^[5] El algoritmo simplemente asigna un número aleatorio extraído de una distribución uniforme ${\ Displaystyle (0,1)}$ como clave para cada elemento, luego clasifica todos los elementos usando la clave y selecciona el más pequeño ${\ Displaystyle k}$ artículos.

J. Vitter en 1985 ^[6] propuso algoritmos de muestreo de yacimientos , que se utilizan ampliamente. Este algoritmo no requiere conocimiento del tamaño de la población. ${\ Displaystyle n}$ de antemano y utiliza un espacio constante.

El muestreo aleatorio también puede acelerarse muestreando la distribución de los huecos entre muestras ^[7] y omitiendo los huecos.

Distinción entre una muestra aleatoria sistemática y una muestra aleatoria simple

Considere una escuela con 1000 estudiantes y suponga que un investigador quiere seleccionar 100 de ellos para estudiarlos más a fondo. Todos sus nombres se pueden poner en un cubo y luego se pueden sacar 100 nombres. No solo cada persona tiene la misma probabilidad de ser seleccionada, también podemos calcular fácilmente la probabilidad ( P ) de que una persona determinada sea elegida, ya que conocemos el tamaño de la muestra ( n ) y la población ( N ):

1. En el caso de que una persona determinada solo pueda ser seleccionada una vez (es decir, después de la selección, una persona se elimina del grupo de selección):

{\ Displaystyle {\ begin {alineado} P & = 1 - {\ frac {N-1} {N}} \ cdot {\ frac {N-2} {N-1}} \ cdot \ cdots \ cdot {\ frac {Nn} {N- (n-1)}} \\ [8pt] & {\ stackrel {\ text {Cancelando:}} {=}} 1 - {\ frac {Nn} {N}} \\ [8pt ] & = {\ frac {n} {N}} \\ [8pt] & = {\ frac {100} {1000}} \\ [8pt] & = 10 \% \ end {alineado}}}

2. En el caso de que alguna persona seleccionada regrese al grupo de selección (es decir, puede ser elegida más de una vez):

{\ Displaystyle P = 1- \ left (1 - {\ frac {1} {N}} \ right) ^ {n} = 1- \ left ({\ frac {999} {1000}} \ right) ^ { 100} = 0.0952 \ puntos \ aproximadamente 9.5 \%}

Esto significa que todos los estudiantes de la escuela tienen, en cualquier caso, una probabilidad de aproximadamente 1 en 10 de ser seleccionados mediante este método. Además, cualquier combinación de 100 estudiantes tiene la misma probabilidad de selección.

Si se introduce un patrón sistemático en el muestreo aleatorio, se denomina "muestreo sistemático (aleatorio)". Un ejemplo sería si los estudiantes de la escuela tuvieran números adjuntos a sus nombres que van desde 0001 a 1000, y elegimos un punto de partida aleatorio, por ejemplo, 0533, y luego elegimos cada décimo nombre a partir de entonces para darnos nuestra muestra de 100 (comenzando de nuevo con 0003 después de llegar a 0993). En este sentido, esta técnica es similar al muestreo por conglomerados, ya que la elección de la primera unidad determinará el resto. Esto ya no es un muestreo aleatorio simple, porque algunas combinaciones de 100 estudiantes tienen una probabilidad de selección mayor que otras; por ejemplo, {3, 13, 23, ..., 993} tiene una probabilidad de selección de 1/10, mientras que {1 , 2, 3, ..., 100} no se pueden seleccionar con este método.

Muestreo de una población dicotómica

Si los miembros de la población son de tres tipos, digamos "azul", "rojo" y "negro", el número de elementos rojos en una muestra de tamaño dado variará según la muestra y, por tanto, es una variable aleatoria cuya distribución se puede estudiar. Esa distribución depende de la cantidad de elementos rojos y negros en la población completa. Para una muestra aleatoria simple con reemplazo, la distribución es una distribución binomial . Para una muestra aleatoria simple sin reemplazo, se obtiene una distribución hipergeométrica .

Ver también

Referencias

^ Yates, Daniel S .; David S. Moore; Daren S. Starnes (2008). La práctica de la estadística, 3ª ed . Freeman . ISBN 978-0-7167-7309-2.
^ Tille, Yves; Tillé, Yves (1 de enero de 2006). Algoritmos de muestreo - Springer . Springer Series en Estadística. doi : 10.1007 / 0-387-34240-0 . ISBN 978-0-387-30814-2.
^ Meng, Xiangrui (2013). "Muestreo aleatorio simple escalable y muestreo estratificado" (PDF) . Actas de la 30ª Conferencia Internacional sobre Aprendizaje Automático (ICML-13) : 531–539.
^ Ventilador, CT; Muller, Mervin E .; Rezucha, Ivan (1 de junio de 1962). "Desarrollo de planes de muestreo mediante el uso de técnicas de selección secuencial (elemento por elemento) y computadoras digitales". Revista de la Asociación Estadounidense de Estadística . 57 (298): 387–402. doi : 10.1080 / 01621459.1962.10480667 . ISSN 0162-1459 .
^ Sunter, AB (1 de enero de 1977). "Lista de muestreo secuencial con probabilidades iguales o desiguales sin reemplazo". Estadísticas aplicadas . 26 (3): 261–268. doi : 10.2307 / 2346966 . JSTOR 2346966 .
^ Vitter, Jeffrey S. (1 de marzo de 1985). "Muestreo aleatorio con depósito". ACM Trans. Matemáticas. Softw . 11 (1): 37–57. CiteSeerX 10.1.1.138.784 . doi : 10.1145 / 3147.3165 . ISSN 0098-3500 .
^ Vitter, Jeffrey S. (1 de julio de 1984). "Métodos más rápidos para muestreo aleatorio". Comunicaciones de la ACM . 27 (7): 703–718. CiteSeerX 10.1.1.329.6400 . doi : 10.1145 / 358105.893 . ISSN 0001-0782 .

enlaces externos

Medios relacionados con el muestreo aleatorio en Wikimedia Commons

[1] Yates, Daniel S .; David S. Moore; Daren S. Starnes (2008). La práctica de la estadística, 3ª ed . Freeman . ISBN 978-0-7167-7309-2.

[2] Tille, Yves; Tillé, Yves (1 de enero de 2006). Algoritmos de muestreo - Springer . Springer Series en Estadística. doi : 10.1007 / 0-387-34240-0 . ISBN 978-0-387-30814-2.

[3] Meng, Xiangrui (2013). "Muestreo aleatorio simple escalable y muestreo estratificado" (PDF) . Actas de la 30ª Conferencia Internacional sobre Aprendizaje Automático (ICML-13) : 531–539.

[4] Ventilador, CT; Muller, Mervin E .; Rezucha, Ivan (1 de junio de 1962). "Desarrollo de planes de muestreo mediante el uso de técnicas de selección secuencial (elemento por elemento) y computadoras digitales". Revista de la Asociación Estadounidense de Estadística . 57 (298): 387–402. doi : 10.1080 / 01621459.1962.10480667 . ISSN 0162-1459 .

[5] Sunter, AB (1 de enero de 1977). "Lista de muestreo secuencial con probabilidades iguales o desiguales sin reemplazo". Estadísticas aplicadas . 26 (3): 261–268. doi : 10.2307 / 2346966 . JSTOR 2346966 .

[6] Vitter, Jeffrey S. (1 de marzo de 1985). "Muestreo aleatorio con depósito". ACM Trans. Matemáticas. Softw . 11 (1): 37–57. CiteSeerX 10.1.1.138.784 . doi : 10.1145 / 3147.3165 . ISSN 0098-3500 .

[7] Vitter, Jeffrey S. (1 de julio de 1984). "Métodos más rápidos para muestreo aleatorio". Comunicaciones de la ACM . 27 (7): 703–718. CiteSeerX 10.1.1.329.6400 . doi : 10.1145 / 358105.893 . ISSN 0001-0782 .

[1]