43 votos

¿Qué significa un intervalo de confianza tomado a partir de remuestreos bootstrap?

He estado mirando numerosas preguntas en este sitio sobre el bootstrapping y los intervalos de confianza, pero sigo confundido. Parte de la razón de mi confusión es probablemente que no estoy lo suficientemente avanzado en mis conocimientos de estadística para entender muchas de las respuestas. Estoy a mitad de camino en un curso de introducción a la estadística y mi nivel de matemáticas es sólo de mediados de Álgebra II, así que cualquier cosa que pase de ese nivel me confunde. Si alguna de las personas con conocimientos en este sitio pudiera explicar este tema a mi nivel sería de gran ayuda.

En clase hemos aprendido a tomar remuestreos con el método bootstrap y a utilizarlos para construir un intervalo de confianza para alguna estadística que queramos medir. Por ejemplo, digamos que tomamos una muestra de una población grande y descubrimos que el 40% dice que votará al candidato A. Suponemos que esta muestra es un reflejo bastante exacto de la población original, en cuyo caso podemos tomar remuestreos de ella para descubrir algo sobre la población. Así que tomamos remuestreos y encontramos (utilizando un nivel de confianza del 95%) que el intervalo de confianza resultante oscila entre el 35% y el 45%.

Mi pregunta es, ¿qué hace realmente este intervalo de confianza media ?

Sigo leyendo que hay una diferencia entre los Intervalos de Confianza (frecuencial) y los Intervalos Credibles (bayesianos). Si he entendido bien, un intervalo creíble diría que hay un 95% de posibilidades de que en nuestra situación el parámetro verdadero está dentro del intervalo dado (35%-45%), mientras que un intervalo de confianza diría que hay un 95% que en este tipo de situación (pero no necesariamente en nuestra situación concreta) el método que estamos utilizando informaría con precisión de que el parámetro verdadero está dentro del intervalo dado.

Suponiendo que esta definición sea correcta, mi pregunta es: ¿Cuál es el "parámetro verdadero" del que hablamos cuando utilizamos intervalos de confianza construidos con el método bootstrap? ¿Nos referimos a (a) el parámetro verdadero de la población original o (b) el verdadero parámetro del muestra ? Si (a), entonces estaríamos diciendo que el 95% de las veces el método bootstrap informará con precisión de afirmaciones verdaderas sobre la población original. ¿Pero cómo podríamos saber eso? ¿No se basa todo el método bootstrap en la supuesto que la muestra original es un reflejo exacto de la población de la que se tomó? Si (b), entonces no entiendo en absoluto el significado del intervalo de confianza. ¿No conocemos ya el verdadero parámetro de la muestra? Es una medida sencilla.

Lo he discutido con mi profesora y me ha ayudado bastante. Pero todavía estoy confundido.

30voto

Sean Hanley Puntos 2428

Si el procedimiento de bootstrapping y la formación del intervalo de confianza se realizaron correctamente, significa lo mismo que cualquier otro intervalo de confianza. Desde una perspectiva frecuentista, un IC del 95% implica que si todo el estudio se repitiera de forma idéntica ad infinitum El 95% de los intervalos de confianza formados de esta manera incluirán el valor verdadero. Por supuesto, en su estudio, o en cualquier estudio individual, el intervalo de confianza incluirá el valor verdadero o no, pero no sabrá cuál. Para entender mejor estas ideas, puede ser útil leer mi respuesta aquí: ¿Por qué un intervalo de confianza (IC) del 95% no implica una probabilidad del 95% de contener la media?

En cuanto a sus otras preguntas, el "valor verdadero" se refiere al parámetro real de la población correspondiente. (Las muestras no tienen parámetros, tienen estadísticas por ejemplo, la media de la muestra, $\bar x$ es una estadística de la muestra, pero la media de la población, $\mu$ es un parámetro de la población). En cuanto a cómo lo sabemos, en la práctica no lo sabemos. Tienes razón en que nos basamos en algunas suposiciones, siempre lo hacemos. Si esas suposiciones son correctas, se puede demostrar que las propiedades se mantienen. Este era el objetivo del trabajo de Efron a finales de los 70 y principios de los 80, pero las matemáticas son difíciles de seguir para la mayoría de la gente. Para una explicación algo matemática del bootstrap, véase la respuesta de @StasK aquí: Explicar a los profanos por qué funciona el bootstrapping . Para una demostración rápida sin necesidad de hacer cálculos, considere la siguiente simulación utilizando R :

# a function to perform bootstrapping
boot.mean.sampling.distribution = function(raw.data, B=1000){
  # this function will take 1,000 (by default) bootsamples calculate the mean of 
  # each one, store it, & return the bootstrapped sampling distribution of the mean

  boot.dist = vector(length=B)     # this will store the means
  N         = length(raw.data)     # this is the N from your data
  for(i in 1:B){
    boot.sample  = sample(x=raw.data, size=N, replace=TRUE)
    boot.dist[i] = mean(boot.sample)
  }
  boot.dist = sort(boot.dist)
  return(boot.dist)
}

# simulate bootstrapped CI from a population w/ true mean = 0 on each pass through
# the loop, we will get a sample of data from the population, get the bootstrapped 
# sampling distribution of the mean, & see if the population mean is included in the
# 95% confidence interval implied by that sampling distribution

set.seed(00)                       # this makes the simulation reproducible
includes = vector(length=1000)     # this will store our results
for(i in 1:1000){
  sim.data    = rnorm(100, mean=0, sd=1)
  boot.dist   = boot.mean.sampling.distribution(raw.data=sim.data)
  includes[i] = boot.dist[25]<0 & 0<boot.dist[976]
}
mean(includes)     # this tells us the % of CIs that included the true mean
[1] 0.952

0voto

David Beck Puntos 25

Lo que dices es que no es necesario encontrar el intervalo de confianza a partir de las remuestras bootstrap. Si estás satisfecho con la estadística (media o proporción muestral) obtenida a partir de las remuestras bootstrap, no encuentras ningún intervalo de confianza y, por tanto, no hay problema de interpretación. Pero si no está satisfecho con la estadística obtenida a partir de las remuestras de bootstrap o está satisfecho pero todavía quiere encontrar el intervalo de confianza, entonces la interpretación de dicho intervalo de confianza es la misma que la de cualquier otro intervalo de confianza. Es porque cuando sus remuestreos representan exactamente (o se supone que lo hacen) la población original, ¿dónde está la necesidad del intervalo de confianza? La estadística de las remuestras bootstrap es el parámetro original de la población, pero cuando no se considera la estadística como el parámetro original de la población, entonces es necesario encontrar el intervalo de confianza. Por lo tanto, todo depende de cómo se considere. Digamos que ha calculado un intervalo de confianza del 95% a partir de remuestreos bootstrap. Ahora la interpretación es: "El 95% de las veces, este método de bootstrap da lugar a un intervalo de confianza que contiene el verdadero parámetro de la población".

(Esto es lo que pienso, corregidme si hay algún error).

-1voto

Gareth Puntos 74

Nos referimos al verdadero parámetro de la población original. Es posible hacer esto asumiendo que los datos fueron extraídos aleatoriamente de la población original -- en ese caso, hay argumentos matemáticos que muestran que los procedimientos de bootstrap darán un intervalo de confianza válido, al menos cuando el tamaño del conjunto de datos sea lo suficientemente grande.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X