He estado mirando numerosas preguntas en este sitio sobre el bootstrapping y los intervalos de confianza, pero sigo confundido. Parte de la razón de mi confusión es probablemente que no estoy lo suficientemente avanzado en mis conocimientos de estadística para entender muchas de las respuestas. Estoy a mitad de camino en un curso de introducción a la estadística y mi nivel de matemáticas es sólo de mediados de Álgebra II, así que cualquier cosa que pase de ese nivel me confunde. Si alguna de las personas con conocimientos en este sitio pudiera explicar este tema a mi nivel sería de gran ayuda.
En clase hemos aprendido a tomar remuestreos con el método bootstrap y a utilizarlos para construir un intervalo de confianza para alguna estadística que queramos medir. Por ejemplo, digamos que tomamos una muestra de una población grande y descubrimos que el 40% dice que votará al candidato A. Suponemos que esta muestra es un reflejo bastante exacto de la población original, en cuyo caso podemos tomar remuestreos de ella para descubrir algo sobre la población. Así que tomamos remuestreos y encontramos (utilizando un nivel de confianza del 95%) que el intervalo de confianza resultante oscila entre el 35% y el 45%.
Mi pregunta es, ¿qué hace realmente este intervalo de confianza media ?
Sigo leyendo que hay una diferencia entre los Intervalos de Confianza (frecuencial) y los Intervalos Credibles (bayesianos). Si he entendido bien, un intervalo creíble diría que hay un 95% de posibilidades de que en nuestra situación el parámetro verdadero está dentro del intervalo dado (35%-45%), mientras que un intervalo de confianza diría que hay un 95% que en este tipo de situación (pero no necesariamente en nuestra situación concreta) el método que estamos utilizando informaría con precisión de que el parámetro verdadero está dentro del intervalo dado.
Suponiendo que esta definición sea correcta, mi pregunta es: ¿Cuál es el "parámetro verdadero" del que hablamos cuando utilizamos intervalos de confianza construidos con el método bootstrap? ¿Nos referimos a (a) el parámetro verdadero de la población original o (b) el verdadero parámetro del muestra ? Si (a), entonces estaríamos diciendo que el 95% de las veces el método bootstrap informará con precisión de afirmaciones verdaderas sobre la población original. ¿Pero cómo podríamos saber eso? ¿No se basa todo el método bootstrap en la supuesto que la muestra original es un reflejo exacto de la población de la que se tomó? Si (b), entonces no entiendo en absoluto el significado del intervalo de confianza. ¿No conocemos ya el verdadero parámetro de la muestra? Es una medida sencilla.
Lo he discutido con mi profesora y me ha ayudado bastante. Pero todavía estoy confundido.