28 votos

¿Por qué se siguen utilizando pruebas de hipótesis cuando tenemos el bootstrap y el teorema del límite central?

¿Por qué se siguen utilizando pruebas de hipótesis cuando tenemos el bootstrap y el teorema del límite central?

Para dar contexto a mi pregunta, repaso brevemente el teorema del límite central e ilustro un ejemplo de simulación utilizando el lenguaje de programación R.

La página de Wikipedia del teorema del límite central proporciona algunas explicaciones muy buenas de este teorema:

Si $X_1, X_2,..., X_N$ son muestras aleatorias $n$ tomadas de una población con media global $\mu$ y varianza finita $\sigma^2$, y si $\bar{X}_n$ es la media muestral, entonces la forma límite de la distribución, $Z=\lim_{n\to+\infty}\sqrt{n}\Big(\frac{\bar{X}_n-\mu}{\sigma}\Big)$, es una distribución normal estándar.

Entiendo esto de la siguiente manera:

1) Tomar muchas muestras aleatorias de cualquier distribución

2) Para cada una de estas muestras aleatorias, calcular su media

3) La distribución de estas medias seguirá una distribución normal (este resultado es particularmente útil para inferencias, por ejemplo, pruebas de hipótesis y intervalos de confianza).

Ilustración del teorema del límite central que conduce a la distribución gaussiana de la media de la muestra

Intenté ver si entendía correctamente el teorema del límite central creando dos ejemplos utilizando el lenguaje de programación R. Simulé datos no normales y tomé muestras aleatorias de estos datos, en un intento de ver la "forma de campana" correspondiente a la distribución de estas muestras aleatorias.

1) Bootstrap no paramétrico

En este ejemplo, imagina que hay un pueblo y estás interesado en los salarios que ganan las personas que viven en este pueblo: específicamente, estás interesado en saber si el 20% de la población gana más de US$ 80,000.00. Aquí está la distribución de salarios en este pueblo (en la vida real, no sabrías cómo se ve esta distribución, solo podrías tomar muestras de esta distribución):

set.seed(123)
a = rnorm(100000, 20000, 1000)

a2 = rnorm(100000, 40000, 10000)

a1 = rnorm(100000, 100000, 10000)

salary = c(a, a1, a2)
id = 1:length(salary)
my_data = data.frame(id, salary)

###plot

par(mfrow=c(1, 2))
hist(my_data$salary, 1000, ylab = "Número de personas", xlab = " Salarios", main="Distribución de los Salarios de Todas las Personas en Algún Pueblo: 300,000 personas")
hist(our_sample$salary, 1000, ylab = "Número de personas", xlab = " Salarios", main="Muestra de los Datos Completos a los que tenemos Acceso: 15,000 personas")

Introducir descripción de la imagen aquí

Supongamos que tenemos acceso a los salarios del 5% de las personas en este pueblo (supongamos que se eligen al azar):

library(dplyr)
our_sample <- sample_frac(my_data, 0.05)

A continuación, tomaremos 1000 muestras aleatorias del 5% de esta población a la que tenemos acceso y verificaremos la proporción de cuántos ciudadanos ganan más de US$ 80,000. Luego trazaré la distribución de estas proporciones: si lo he hecho correctamente, debería esperar ver una forma de "campana":

library(dplyr)

results <- list()
    for (i in 1:1000) {

        train_i <- sample_frac(our_sample, 0.70)
        sid <- train_i$row
        train_i$prop = ifelse(train_i$salary >80000, 1, 0)

        results[[i]] <- mean(train_i$prop)
    }

results

results_df <- do.call(rbind.data.frame, results)

colnames(results_df)[1] <- "mean_muestra"

hist(results_df$mean_muestra)

Introducir descripción de la imagen aquí

Como podemos ver, los datos originales eran claramente no normales, pero la distribución de la media de las muestras aleatorias de estos datos no normales parece verse "algo normal":

par(mfrow=c(1, 3))
hist(my_data$salary, breaks = 10000, main = "datos completos")
hist(our_sample$salary, breaks = 10000, main = "muestra de los datos completos a los que tenemos acceso")
hist(results_df$mean_muestra, breaks = 500, main = "datos vuelta a muestrear por bootstrap de los datos a los que tenemos acceso")

Introducir descripción de la imagen aquí

Intervalos de confianza:

  • En realidad, el 32.5% de todos los ciudadanos de este pueblo ganan más de US$ 80,000

    my_data$prop = ifelse(my_data$salary > 80000, 1, 0)
          mean(my_data$prop)
    
          [1] 0.3258367
  • Sorprendentemente, según los datos de bootstrap vuelta a muestrear, solo el 32.5% de los ciudadanos ganan más de US$ 80,000

    mean(results_df$mean_muestra)
      [1] 0.3259046

El intervalo de confianza se calcula de la siguiente manera:

Introducir descripción de la imagen aquí

    results_df$delta = abs(mean(results_df$mean_muestra) - results_df$mean_muestra)

sorted_results = results_df[order(- results_df$delta), ]

quantile(sorted_results$delta,  probs = c(0.1, 0.9))

        10%         90%
0.000495400 0.005977933

Esto significa que el intervalo de confianza para la proporción de ciudadanos que ganan más de US$ 80,000 está entre el 32.59% - pero de hecho puede estar en cualquier lugar entre (32.59 - 0.0495400 %) y (32.59 - 5.97%)

Conclusión: Por lo que entiendo, el teorema del límite central establece que para cualquier distribución, la distribución de las medias de las muestras aleatorias seguirá siendo una distribución normal. Además, el bootstrap no paramétrico también te permite evaluar inferencias poblacionales e intervalos de confianza, independientemente de la distribución real de la población. Entonces, ¿por qué seguimos utilizando métodos clásicos de pruebas de hipótesis? La única razón que se me ocurre es cuando hay tamaños de muestra más pequeños. Pero ¿hay alguna otra razón?

Referencias

2 votos

Una pregunta relacionada (cerrada) se encuentra aquí: ¿Es menos importante la estadística en la era de los datos masivos que en los viejos tiempos?. Creo que el tema (por qué no simplemente recopilar más datos) ha surgido en otro lugar también.

10 votos

El teorema del límite central es para los estadísticos, no para la aplicación de estadísticas. Y el bootstrap es un método aproximado; en muchos casos la aproximación no es muy precisa. La gran pregunta es ¿por qué probamos hipótesis en lugar de estimar cantidades de interés?

1 votos

"Como podemos ver, los datos originales claramente no eran normales, pero la distribución para la media de las muestras aleatorias de estos datos no normales parece verse "algo normal"" El histograma no es la distribución para la media de las muestras aleatorias. En cambio, esos valores entre 0.315 y 0.330 son fracciones de las muestras aleatorias que ganan más de 80 mil.

26voto

GenericTypeTea Puntos 27689

Las pruebas de hipótesis siguen utilizándose porque están motivadas por una necesidad diferente en la inferencia estadística que las estimaciones por intervalos están motivadas.

El propósito de una prueba de hipótesis es tomar una decisión sobre si hay evidencia a favor de la expresión de la hipótesis alternativa del parámetro poblacional.

Los intervalos de confianza sirven para un propósito diferente: proporcionan un rango plausible de estimaciones de un parámetro poblacional.

Todos los detalles técnicos sobre la estimación (exacta vs aproximada, estimadores de remuestreo vs cerrados no probabilísticos, intervalos, estadísticas de prueba y valores de p, etc.) aparte, lo anterior representa motivaciones fundamentalmente diferentes en la inferencia estadística.

Nota: a veces la cobertura del intervalo de confianza tiene una correspondencia bastante directa con una prueba de hipótesis (a la ¿cubre o no la hipótesis nula?), pero esto no siempre es así, y utilizar habitualmente los intervalos de confianza para ese propósito, en mi opinión, obscurece la distinción anterior entre "tomemos una decisión sobre la evidencia a favor de la hipótesis alternativa" y "estimemos un rango plausible de valores para un parámetro".

0 votos

La hipótesis nula siempre se sabe que es falsa: no hay probabilidad alguna de que los parámetros continuos exactamente tengan un valor específico o sean exactamente iguales. Por lo tanto, la hipótesis nula siempre será rechazada si se recopila suficiente información. Por lo tanto, la prueba de hipótesis puede considerarse no una "prueba de efecto", sino una verificación de plausibilidad: ¿fue el tamaño de la muestra lo suficientemente grande como para que el efecto observado (probablemente) no se deba al azar? Después de esta verificación de plausibilidad, se puede plantear la pregunta realmente interesante: ¿cuál es el tamaño del efecto? Esta pregunta se responde con un intervalo de confianza.

2 votos

@cdalitz Cuéntame. Además: una disputa semántica: tu punto es específico para hipótesis nulas en estadísticas con distribuciones continuas de la forma $\text{H}_{0}\text{: }\theta = 0$ (o, para pruebas de proporciones $\text{H}_{0}\text{: }\theta = 1$), pero no para aquellas de la forma $\text{H}_{0}\text{: }\theta \ge 0$, $\text{H}_{0}\text{: }\theta \le 0$, o $\text{H}_{0}\text{: }|\theta| \ge \Delta$.

1 votos

@cdalitz Como consecuencia, "La hipótesis nula siempre se sabe que es falsa" es cierta solo bajo circunstancias muy específicas.

14voto

ScottBai Puntos 203

Una razón para utilizar métodos tradicionales de pruebas de hipótesis (cuando se pueden usar) es que es computacionalmente eficiente comparado con el muestreo Bootstrap. Dependiendo del número de dimensiones en tus datos, el número de muestras Bootstrap requeridas para estimar valores de p (o intervalos de confianza) puede ser muy grande.

El teorema del límite central no siempre es aplicable. Claro, el promedio de un gran número de variables aleatorias i.i.d. llevará a una distribución Normal. La pregunta es ¿qué se considera grande? Además, el problema es que no solo te interesa la media de la población; hay otros parámetros que quieres estimar donde el TLC no es aplicable. De nuevo, tenemos la normalidad asintótica para rescatarnos (no entraré en detalles aquí), pero también requiere una muestra grande. De nuevo, ¿qué se considera grande? Ten en cuenta que la normalidad asintótica requiere que otras condiciones técnicas se cumplan, lo cual no siempre sucede.

Editar: Un ejemplo donde el TLC no es aplicable es cuando una serie de tiempo tiene una persistencia a largo plazo, lo que significa que la autocorrelación desaparece muy lentamente. Aquí se viola la suposición de independencia en tal medida que el TLC ni siquiera es aproximadamente válido con miles de muestras. Aquí nuevamente tendrás que recurrir a distribuciones de muestreo clásicas para las pruebas de hipótesis.

Otro punto (como detalla muy bien Alexis) es que las pruebas de hipótesis se utilizan para rechazar una explicación plausible (modelo) del fenómeno observado. Por lo tanto, las pruebas de hipótesis en sí seguirán siendo relevantes independientemente del método utilizado para probar la hipótesis.

3 votos

Usando terminología estadística (en oposición a biológica), un gran número de muestras debería ser una muestra grande.

0 votos

No es como si la pregunta "¿qué es grande?" sea un gran misterio. Un tamaño de muestra de 30 casi siempre es suficiente. Solo si se reduce a 20 o 10 se comienzan a inspeccionar problemas de valores atípicos, sesgo, curtosis, etc. Ver Boos y Hughes Oliver, "¿Qué tan grande debe ser n para los intervalos Z y t?" (The American Statistician, 2000).

4 votos

Es un misterio, sin embargo. En aplicaciones prácticas, donde no solo se requiere la media de la población sino también los parámetros, 30 muestras no son ni siquiera suficientes. Por ejemplo, la persistencia a largo plazo en el análisis de series temporales significa que ni siquiera miles de muestras son suficientes para que la aproximación normal sea válida. Claro, puedes asumir i.id., entonces 30 muestras son suficientes. De hecho, agregaré este punto a la respuesta.

11voto

Alan Puntos 7273

Vamos a ver qué pasó realmente con tu ejemplo

  • Empezaste con una mezcla de tres distribuciones normales, donde la probabilidad de exceder $\$80k$ era de aproximadamente $0.32576$
  • Usaste esto para construir una población de $300000$ con $97751$ casos que excedían $\$80k$, una proporción de alrededor de $0.32587$
  • Muestraste $15000$ sin reemplazo de la población de $300000$ con (mi ejecución de tu código) $4865$ casos excediendo $\$80k$, una proporción de aproximadamente $0.3243$. Esta es la estimación natural $\hat p$ de la proporción tanto de la población como de la distribución original mezclada.
  • Luego muestreaste $1000$ veces $10500$ sin reemplazo de la muestra de $15000$ y observaste los casos que excedían $\$80k$ que iban desde $3317$ hasta $3491$ con un promedio de alrededor de $3405.8$, obteniendo proporciones que van desde $0.3159$ hasta $0.3325$ con un promedio de aproximadamente $0.3244$ (parece que reportas una media de $0.3259$ pero eso no lo obtengo ejecutando tu código - con solo $1000$ repeticiones la diferencia no es significativa)

Ese último paso no es un bootstrapping convencional, el cual en cambio implicaría muestrear $15000$ (o tal vez $285000$) con reemplazo de la muestra original, y hacerlo muchas más veces. No importa. El punto real es que nada de lo que hagas después del tercer paso puede mejorar el conocimiento de que $4865$ de la muestra de $15000$ excedió $\$80k$. Lo que hace el bootstrapping es permitir estimaciones de estadísticas que son teóricamente demasiado difíciles de calcular, pero ese no es el caso con las proporciones.

En particular, no puedes asegurar que mejoras en $\hat p$ mediante bootstrapping, aunque hay algunos argumentos teóricos para usar las estimaciones sesgadas $\frac{4865+\frac12}{15000+1}$ o $\frac{4865+1}{15000+2}$ o $\frac{4865+2}{15000+4}$ en lugar de $\frac{4865}{15000}$. En cuanto a un intervalo de confianza, hay muchas sugerencias teóricas, al menos para la distribución de la mezcla original, y aquí el bootstrapping no mejorará en esto (y variará ya que cada conjunto de bootstrap variará). Es lo suficientemente fácil extender esto a intervalos de confianza para la población aquí, recordando que la población es finita y ya conoces $15000$ de los valores.

1 votos

¡Gracias por tu respuesta! Al final del día, ¿es correcto lo que he hecho? (Con la excepción de muestreo con reemplazo) ¿Gracias!

8voto

user164061 Puntos 281

Además, el Bootstrap No Paramétrico también te permite evaluar la inferencia poblacional y los intervalos de confianza, independientemente de la distribución real de la población. Entonces, ¿por qué seguimos utilizando métodos de prueba de hipótesis clásicos? La única razón que se me ocurre es cuando hay tamaños de muestra más pequeños. ¿Pero hay alguna otra razón?

Si tienes una muestra grande, entonces puedes estimar muy bien la población basándote en la distribución empírica.

Pero en lugar de hacer Bootstrap, se puede hacer mucho más rápido con un cálculo simple. Si observas $p = 0.3258367$ en una muestra de tamaño $n = 15000$, entonces la estimación del error estándar en la estimación $\hat{p}$ es

$$\sigma_{\hat{p}} \approx \sqrt{\frac{p(1-p)}{n}}$$

y para el intervalo de confianza del 80%

$$CI = \hat{p} \pm 1.281552 \sigma_{\hat{p}} $$

dando

$$CI = 0.3258367 \pm 0.004904255 $$

Ventaja del cálculo directo / desventaja del Bootstrap

  • Por lo tanto, este cálculo no requirió todas las re-muestras que necesitabas hacer.

  • También es más preciso que el resultado que obtienes*.

  • Además, el Bootstrap es una caja negra. Solo te da una salida única pero no hay información sobre relaciones más profundas.

    Por ejemplo, con la fórmula para el cálculo directo puedes ver la dependencia $1/\sqrt{n}$ del resultado final. Esto es útil si quieres determinar el mejor tamaño de muestra para una cierta precisión. Con el Bootstrap no podrías ver esto directamente y tendrías que simular muchas situaciones.


* Deben haberse deslizado algunos errores en tu cálculo ya que "entre (32.59 - 0.0495400 %) y (32.59 - 5.97%)" es incorrecto. Deberías obtener algo como (32.59 - 0.49 %) y (32.59 + 0.49 %), por lo que el tamaño del intervalo correcto es solo alrededor del 1%.

4voto

Altar Puntos 101

El bootstrap no puede volver a muestrear eventos que no ocurrieron en el conjunto de datos. Si la probabilidad de algún evento fue muy baja y termina por no ocurrir, por ejemplo, el número esperado de eventos en algún rango o bin es menor que 1, y de hecho se obtiene cero, el procedimiento de bootstrap nunca podrá producir muestras con un número distinto de cero de tales eventos. En otras palabras, a diferencia de muestrear de la verdadera distribución subyacente, el bootstrap asume implícitamente que la probabilidad de este evento era estrictamente cero. Esto puede llevar a sesgos en el caso de datos dispersos o de larga cola.

Por supuesto, los datos dispersos también pueden ser un problema en pruebas de hipótesis, especialmente aquellas que asumen una distribución asintótica para alguna métrica subyacente, y es probable que se necesite un cuidado especial.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X