28 votos

¿Por qué se siguen utilizando pruebas de hipótesis cuando tenemos el bootstrap y el teorema del límite central?

¿Por qué se siguen utilizando pruebas de hipótesis cuando tenemos el bootstrap y el teorema del límite central?

Para dar contexto a mi pregunta, repaso brevemente el teorema del límite central e ilustro un ejemplo de simulación utilizando el lenguaje de programación R.

La página de Wikipedia del teorema del límite central proporciona algunas explicaciones muy buenas de este teorema:

Si $X_1, X_2,..., X_N$ son muestras aleatorias $n$ tomadas de una población con media global $\mu$ y varianza finita $\sigma^2$, y si $\bar{X}_n$ es la media muestral, entonces la forma límite de la distribución, $Z=\lim_{n\to+\infty}\sqrt{n}\Big(\frac{\bar{X}_n-\mu}{\sigma}\Big)$, es una distribución normal estándar.

Entiendo esto de la siguiente manera:

1) Tomar muchas muestras aleatorias de cualquier distribución

2) Para cada una de estas muestras aleatorias, calcular su media

3) La distribución de estas medias seguirá una distribución normal (este resultado es particularmente útil para inferencias, por ejemplo, pruebas de hipótesis y intervalos de confianza).

Ilustración del teorema del límite central que conduce a la distribución gaussiana de la media de la muestra

Intenté ver si entendía correctamente el teorema del límite central creando dos ejemplos utilizando el lenguaje de programación R. Simulé datos no normales y tomé muestras aleatorias de estos datos, en un intento de ver la "forma de campana" correspondiente a la distribución de estas muestras aleatorias.

1) Bootstrap no paramétrico

En este ejemplo, imagina que hay un pueblo y estás interesado en los salarios que ganan las personas que viven en este pueblo: específicamente, estás interesado en saber si el 20% de la población gana más de US$ 80,000.00. Aquí está la distribución de salarios en este pueblo (en la vida real, no sabrías cómo se ve esta distribución, solo podrías tomar muestras de esta distribución):

set.seed(123)
a = rnorm(100000, 20000, 1000)

a2 = rnorm(100000, 40000, 10000)

a1 = rnorm(100000, 100000, 10000)

salary = c(a, a1, a2)
id = 1:length(salary)
my_data = data.frame(id, salary)

###plot

par(mfrow=c(1, 2))
hist(my_data$salary, 1000, ylab = "Número de personas", xlab = " Salarios", main="Distribución de los Salarios de Todas las Personas en Algún Pueblo: 300,000 personas")
hist(our_sample$salary, 1000, ylab = "Número de personas", xlab = " Salarios", main="Muestra de los Datos Completos a los que tenemos Acceso: 15,000 personas")

Introducir descripción de la imagen aquí

Supongamos que tenemos acceso a los salarios del 5% de las personas en este pueblo (supongamos que se eligen al azar):

library(dplyr)
our_sample <- sample_frac(my_data, 0.05)

A continuación, tomaremos 1000 muestras aleatorias del 5% de esta población a la que tenemos acceso y verificaremos la proporción de cuántos ciudadanos ganan más de US$ 80,000. Luego trazaré la distribución de estas proporciones: si lo he hecho correctamente, debería esperar ver una forma de "campana":

library(dplyr)

results <- list()
    for (i in 1:1000) {

        train_i <- sample_frac(our_sample, 0.70)
        sid <- train_i$row
        train_i$prop = ifelse(train_i$salary >80000, 1, 0)

        results[[i]] <- mean(train_i$prop)
    }

results

results_df <- do.call(rbind.data.frame, results)

colnames(results_df)[1] <- "mean_muestra"

hist(results_df$mean_muestra)

Introducir descripción de la imagen aquí

Como podemos ver, los datos originales eran claramente no normales, pero la distribución de la media de las muestras aleatorias de estos datos no normales parece verse "algo normal":

par(mfrow=c(1, 3))
hist(my_data$salary, breaks = 10000, main = "datos completos")
hist(our_sample$salary, breaks = 10000, main = "muestra de los datos completos a los que tenemos acceso")
hist(results_df$mean_muestra, breaks = 500, main = "datos vuelta a muestrear por bootstrap de los datos a los que tenemos acceso")

Introducir descripción de la imagen aquí

Intervalos de confianza:

  • En realidad, el 32.5% de todos los ciudadanos de este pueblo ganan más de US$ 80,000

    my_data$prop = ifelse(my_data$salary > 80000, 1, 0)
          mean(my_data$prop)
    
          [1] 0.3258367
  • Sorprendentemente, según los datos de bootstrap vuelta a muestrear, solo el 32.5% de los ciudadanos ganan más de US$ 80,000

    mean(results_df$mean_muestra)
      [1] 0.3259046

El intervalo de confianza se calcula de la siguiente manera:

Introducir descripción de la imagen aquí

    results_df$delta = abs(mean(results_df$mean_muestra) - results_df$mean_muestra)

sorted_results = results_df[order(- results_df$delta), ]

quantile(sorted_results$delta,  probs = c(0.1, 0.9))

        10%         90%
0.000495400 0.005977933

Esto significa que el intervalo de confianza para la proporción de ciudadanos que ganan más de US$ 80,000 está entre el 32.59% - pero de hecho puede estar en cualquier lugar entre (32.59 - 0.0495400 %) y (32.59 - 5.97%)

Conclusión: Por lo que entiendo, el teorema del límite central establece que para cualquier distribución, la distribución de las medias de las muestras aleatorias seguirá siendo una distribución normal. Además, el bootstrap no paramétrico también te permite evaluar inferencias poblacionales e intervalos de confianza, independientemente de la distribución real de la población. Entonces, ¿por qué seguimos utilizando métodos clásicos de pruebas de hipótesis? La única razón que se me ocurre es cuando hay tamaños de muestra más pequeños. Pero ¿hay alguna otra razón?

Referencias

2 votos

Una pregunta relacionada (cerrada) se encuentra aquí: ¿Es menos importante la estadística en la era de los datos masivos que en los viejos tiempos?. Creo que el tema (por qué no simplemente recopilar más datos) ha surgido en otro lugar también.

10 votos

El teorema del límite central es para los estadísticos, no para la aplicación de estadísticas. Y el bootstrap es un método aproximado; en muchos casos la aproximación no es muy precisa. La gran pregunta es ¿por qué probamos hipótesis en lugar de estimar cantidades de interés?

1 votos

"Como podemos ver, los datos originales claramente no eran normales, pero la distribución para la media de las muestras aleatorias de estos datos no normales parece verse "algo normal"" El histograma no es la distribución para la media de las muestras aleatorias. En cambio, esos valores entre 0.315 y 0.330 son fracciones de las muestras aleatorias que ganan más de 80 mil.

3voto

MrStatic Puntos 4789
  1. Tomar muchas muestras aleatorias de cualquier distribución

Pero tu ejemplo solo tiene una sola muestra que estás volviendo a muestrear. No estás tomando muestras de la población, estás volviendo a muestrear tu muestra, por lo que en realidad solo evalúas los parámetros de tu muestra que podrías haber encontrado directamente.

  1. La distribución de las medias seguirá una Distribución Normal (este resultado es particularmente útil para inferencias, por ejemplo, pruebas de hipótesis e intervalos de confianza).

Te estás perdiendo el hecho de que el teorema del límite central requiere $n \rightarrow \infty$. Para el caso finito obtienes algo diferente. Si la población sigue una distribución normal, las medias seguirán la distribución t de Student.

P.D. Por favor, no tomes mi lenguaje directo como un ataque. La pregunta es genial y es importante discutir estos temas. Solo sentí que estas confusiones deberían ser contrarrestadas de manera explícita y concisa.

2voto

Los métodos clásicos, diseñados para experimentos analizados con análisis de varianza, fueron diseñados para funcionar con muestras pequeñas y estructuras de diseño complejas. La estructura de diseño compleja incluye Cuadrados Latinos, Diseños de Bloques Incompletos Balanceados, Diseños de Medidas Repetidas y otros. Todos estos se utilizan regularmente en ciencias biológicas y psicológicas, así como en ingeniería química.

El método original de análisis, análisis de varianza, proporciona pruebas de hipótesis y, para los diseños complejos, proporciona información descriptiva que es útil para entender las conclusiones científicas, por ejemplo, estimaciones de intervalos, identificación de valores atípicos o fallos de suposiciones. El análisis de varianza también funciona bien para diseños aleatorios incluso cuando hay algunas desviaciones de las suposiciones. Existe una amplia literatura desde la década de 1950 que muestra que la aleatorización es una base generalmente buena para las pruebas de análisis de varianza, aunque la mayoría de las derivaciones de las pruebas se basan en distribuciones gaussianas.

Se desarrollaron métodos para el análisis de mediciones binomiales y multinomiales para muchos de los diseños que los científicos usaban y analizaban, tal vez de manera algo incorrecta, con análisis de varianza. Los diseños experimentales siguen siendo de uso común con análisis apropiados.

El Bootstrap es una herramienta valiosa. El Bootstrap funciona tanto con muestras pequeñas como grandes. El Bootstrap proporciona estimaciones de sesgo y métodos explícitos que se pueden utilizar para reducir el sesgo. Aunque la mayoría del análisis con el bootstrap se ha centrado en la estimación, no hay razón para que no se pueda utilizar para pruebas de hipótesis. También funciona bien con mediciones que son algo no normales.

El Bootstrap no funciona tan bien con diseños complejos como Diseños de Bloques Aleatorizados, Cuadrados Greco-Latinos, etc. Me gustaría ver métodos de reutilización de muestras, utilizando el Bootstrap u otras técnicas, descritos para tales diseños. Hasta que eso ocurra, los métodos clásicos de análisis seguirán siendo útiles. No voy a contener la respiración esperando.

2voto

Andrew M Puntos 1141
  1. Hay escenarios, aunque admito que muchos de ellos son un poco esotéricos, donde el bootstrap no es consistente. Por ejemplo: parámetros que involucran rangos, o cuando un parámetro está en el límite de un espacio.
  2. El bootstrap puede ser complicado, o ineficiente de implementar con datos no iid. Por ejemplo, con datos agrupados, uno se ve obligado a remuestrear el nivel más alto de agrupamiento.
  3. Para obtener estimaciones eficientes de intervalos de confianza, bajo el capó de muchos estimadores de bootstrap hay algo que se parece a un estimador clásico, por ejemplo, el bootstrap estudentizado. Cabe destacar que no se puede simplemente tomar ingenuamente el percentil 2.5% y 97.5% de la estadística bootstrap en los datos remuestreados y esperar una buena cobertura.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X