5 votos

Remuestreo de conjuntos de datos pequeños: ¿problema de recuento excesivo?

Se trata de una situación hipotética, ya que las técnicas como el bootstrapping suelen fallar con conjuntos de datos muy pequeños.

No obstante, si tomamos como ejemplo el bootstrap, podemos calcular fácilmente el número de (re)muestras bootstrap posibles.

Una buena respuesta la da @whuber aquí:

Cantidad de posibles muestras Bootstrap

Supongamos por un momento que el bootstrapping es perfectamente válido para tamaños de muestra bajos. Supongamos que tenemos $n = 5$ . A partir de la solución publicada anteriormente, se observa que hay un total de 126 posibles remuestreos boostrap que se pueden extraer.

En el bootstrapping, solemos tomar un gran número de réplicas (10000, por ejemplo). Tomar tantas réplicas para un conjunto de datos tan pequeño, como el anterior, parece extraño, ya que las remuestreos se contarán varias veces.

Pregunta : ¿Realmente importa? En caso afirmativo, ¿cuál es el efecto sobre la inferencia?

5voto

userfuser Puntos 146

Cuando hacemos bootstrapping, estamos asumiendo que la muestra es representativa de la población.

El objetivo del bootstrapping es estimar una distribución de muestreo e inferir los errores estándar y los intervalos de confianza probables para el conjunto de la población.

Sin embargo, el problema de las muestras pequeñas es que es más probable que existan sesgos en comparación con las muestras grandes y (contrariamente a la creencia popular) el bootstrapping no corrige este sesgo ni soluciona el problema de las muestras pequeñas.

Por ejemplo, supongamos que se tira un dado cinco veces. Se obtienen los números 4, 5, 6, 6, 6, por una media de 5.4 .

Si se tirara un dado cien veces, se obtendría una media cercana a 3.5 que es la media teórica.

Sin embargo, las muestras pequeñas tienen más probabilidades de desviarse significativamente de la media de la población, por lo que el muestreo bootstrap no lo remedia simplemente generando más observaciones.

2voto

Dave Puntos 76

El problema de los tamaños de muestra pequeños no es que se repitan las muestras bootstrap, sino que la pequeña muestra original podría no ser tan representativa de la población.

Obtengamos una muestra de lanzamientos de una moneda justa, de modo que la población verdadera sea $Binom(1, 0.5)$ y usemos tu pequeña muestra de $n=5$ . En R

set.seed(314) # For pi
x <- rbinom(5, 1, 0.5)

Tengo cuatro $0$ s (cabezas) y una $1$ (colas), lo que significa un $20\%$ probabilidad de cruz, en lugar de la correcta $50\%$ . Cuando vamos a realizar el bootstrap de esta muestra, le estamos diciendo al procedimiento bootstrap que muestree a partir de un $Binom(1, 0.2)$ distribución, que es bastante diferente de la verdadera $Binom(1, 0.5)$ población.

Cuando el tamaño de la muestra es mayor, es menos probable que la muestra difiera drásticamente de la población.

0voto

Lewian Puntos 296

Se extraen muchas réplicas bootstrap para aproximar (en una situación estándar) la distribución de muestras i.i.d. de la distribución empírica. Ahora bien, si puede obtener esta distribución explícitamente, lo que es posible con una muestra pequeña, ya que puede enumerar todas las muestras posibles y sus probabilidades, no es necesario aproximarla mediante un número mucho mayor de muestras bootstrap aleatorias. En su lugar, puedes utilizar la distribución completa de las muestras bootstrap (obviamente, siguen existiendo problemas potenciales con la falta de representatividad de tu pequeña muestra, como se menciona en otras respuestas, pero creo que esta no era la pregunta).

Obsérvese por cierto que el muestreo i.i.d. de la distribución empírica producirá probabilidades uniformes sobre pedido en lugar de distinto muestras, lo que significa que si desea emular la verdadera distribución bootstrap mediante un conjunto de muestras, necesitará alguna repetición de la mayoría de las 126 muestras distintas. Esto se aproximaría tomando aleatoriamente un número muy grande de muestras bootstrap, por lo que el recuento múltiple de muestras no es el problema aquí, sino que lo que ocurre es que se está utilizando más potencia de cálculo de la necesaria para hacer algo menos preciso de lo posible con menos esfuerzo de cálculo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X