307 votos

¿Por qué un intervalo de confianza (IC) del 95% no implica una probabilidad del 95% de contener la media?

Parece que a través de varias preguntas relacionadas aquí, hay consenso en que la parte del "95%" de lo que llamamos un "intervalo de confianza del 95%" se refiere al hecho de que si tuviéramos que replicar exactamente nuestros procedimientos de muestreo y cálculo de IC muchas veces, el 95% de los IC así calculados contendrían la media de la población. También parece ser el consenso que esta definición hace pas permiten concluir, a partir de un único IC del 95%, que existe una probabilidad del 95% de que la media se encuentre en algún punto del IC. Sin embargo, no entiendo cómo lo primero no implica lo segundo, en la medida en que, habiendo imaginado muchos IC, el 95% de los cuales contienen la media de la población, ¿no debería nuestra incertidumbre (con respecto a si nuestro IC realmente calculado contiene la media de la población o no) obligarnos a utilizar la tasa base de los casos imaginados (95%) como nuestra estimación de la probabilidad de que nuestro caso real contenga el IC?

He visto mensajes que argumentan en la línea de "el IC realmente calculado contiene la media de la población o no la contiene, por lo que su probabilidad es 1 o 0", pero esto parece implicar una extraña definición de probabilidad que depende de estados desconocidos (es decir, un amigo lanza una moneda justa, oculta el resultado, y se me impide decir que hay un 50% de posibilidades de que salga cara).

Seguramente me equivoco, pero no veo dónde se ha equivocado mi lógica...

5 votos

Por "azar", ¿se refiere a la "probabilidad" en el sentido técnico frecuentista, o en el sentido bayesiano de verosimilitud subjetiva? En el sentido frecuentista, sólo los sucesos de los experimentos aleatorios tienen una probabilidad. Observar tres números dados (fijos) (media verdadera, límites calculados del IC) para determinar su orden (¿media verdadera contenida en el IC?) no es un experimento aleatorio. Por eso también es errónea la parte de la probabilidad de "el IC realmente calculado contiene la media de la población o no la contiene, por lo que su probabilidad es 1 o 0". Un modelo de probabilidad frecuentista simplemente no se aplica en ese caso.

20 votos

Depende de cómo se trate la media teórica. Si es una variable aleatoria, se puede decir sobre la probabilidad de que caiga en algún intervalo. Si es constante, no se puede. Esta es la explicación más simple, que cerró esta cuestión para mí personalmente.

3 votos

Por cierto, me encontré con esta charla, de Thaddeus Tarpey: Todos los modelos son correctos la mayoría son inútiles . Discutió la cuestión de la probabilidad de que un intervalo de confianza del 95 % contenga $\mu$ (p. 81 y ss.)?

145voto

John Richardson Puntos 1197

Parte del problema es que la definición frecuentista de una probabilidad no permite aplicar una probabilidad no trivial al resultado de un experimento concreto, sino sólo a una población ficticia de experimentos de la que este experimento concreto puede considerarse una muestra. La definición de IC es confusa, ya que se trata de una afirmación sobre esta población ficticia de experimentos (normalmente), y no sobre los datos concretos recogidos en el caso en cuestión. Por lo tanto, parte de la cuestión es la definición de una probabilidad: La idea de que el valor verdadero se encuentre dentro de un intervalo concreto con una probabilidad del 95% no es coherente con el marco frecuentista.

Otro aspecto de la cuestión es que el cálculo de la confianza frecuencial no utiliza toda la información contenida en la muestra particular relevante para acotar el valor verdadero de la estadística. Mi pregunta "¿Hay algún ejemplo en el que los intervalos de confianza bayesianos sean obviamente inferiores a los frecuentistas?" discute un artículo de Edwin Jaynes que tiene algunos ejemplos realmente buenos que destacan la diferencia entre los intervalos de confianza y los intervalos creíbles. Uno que es especialmente relevante para esta discusión es el ejemplo 5, que trata de la diferencia entre un intervalo creíble y un intervalo de confianza para estimar el parámetro de una distribución exponencial truncada (para un problema de control de calidad industrial). En el ejemplo que da, hay suficiente información en la muestra para ser ciertos que el verdadero valor del parámetro no se encuentra en ninguna parte de un intervalo de confianza del 90% correctamente construido.

Esto puede parecer chocante para algunos, pero la razón de este resultado es que los intervalos de confianza y los intervalos creíbles son respuestas a dos preguntas diferentes, a partir de dos interpretaciones distintas de la probabilidad.

El intervalo de confianza es la respuesta a la petición: "Deme un intervalo que ponga entre paréntesis el valor verdadero del parámetro en $100p$ % de los casos de un experimento que se repite un gran número de veces". El intervalo creíble es una respuesta a la petición "Dame un intervalo que ponga entre paréntesis el valor verdadero con probabilidad $p$ dada la muestra particular que he observado. " Para poder responder a esta última petición, debemos adoptar primero (a) un nuevo concepto del proceso de generación de datos o (b) un concepto diferente de la propia definición de probabilidad.

La razón principal por la que cualquier intervalo de confianza del 95% no implica una probabilidad del 95% de contener la media es porque el intervalo de confianza es una respuesta a una pregunta diferente, por lo que sólo es la respuesta correcta cuando la respuesta a las dos preguntas resulta tener la misma solución numérica.

En resumen, los intervalos de credibilidad y de confianza responden a diferentes preguntas desde distintas perspectivas; ambos son útiles, pero hay que elegir el intervalo adecuado para la pregunta que realmente se quiere formular. Si quiere un intervalo que admita una interpretación de un 95% (posterior) de probabilidad de contener el valor verdadero, entonces elija un intervalo creíble (y, con él, la conceptualización de probabilidad que conlleva), no un intervalo de confianza. Lo que no debe hacer es adoptar en la interpretación una definición de probabilidad diferente a la utilizada en el análisis.

Gracias a @cardinal por sus mejoras.

He aquí un ejemplo concreto, extraído del excelente libro de David MaKay "Teoría de la información, inferencia y algoritmos de aprendizaje" (página 464):

Sea el parámetro de interés $\theta$ y los datos $D$ un par de puntos $x_1$ y $x_2$ extraídos independientemente de la siguiente distribución:

$p(x|\theta) = \left\{\begin{array}{cl} 1/2 & x = \theta,\\1/2 & x = \theta + 1, \\ 0 & \mathrm{otherwise}\end{array}\right.$

Si $\theta$ es $39$ entonces esperaríamos ver los conjuntos de datos $(39,39)$ , $(39,40)$ , $(40,39)$ y $(40,40)$ todos con la misma probabilidad $1/4$ . Considere el intervalo de confianza

$[\theta_\mathrm{min}(D),\theta_\mathrm{max}(D)] = [\mathrm{min}(x_1,x_2), \mathrm{max}(x_1,x_2)]$ .

Es evidente que se trata de un intervalo de confianza válido del 75%, ya que si se vuelven a muestrear los datos $D = (x_1,x_2)$ Muchas veces, entonces el intervalo de confianza construido de esta manera contendría el valor verdadero el 75% de las veces.

Ahora considere los datos $D = (29,29)$ . En este caso, el intervalo de confianza frecuentista del 75% sería $[29, 29]$ . Sin embargo, suponiendo que el modelo del proceso de generación sea correcto, $\theta$ podría ser 28 o 29 en este caso, y no tenemos ninguna razón para suponer que 29 es más probable que 28, por lo que la probabilidad posterior es $p(\theta=28|D) = p(\theta=29|D) = 1/2$ . Por lo tanto, en este caso el intervalo de confianza frecuentista no es claramente un intervalo creíble del 75%, ya que sólo hay un 50% de probabilidad de que contenga el verdadero valor de $\theta$ , dado lo que podemos inferir sobre $\theta$ de esta muestra en particular .

Sí, se trata de un ejemplo artificial, pero si los intervalos de confianza y los intervalos creíbles no fueran diferentes, seguirían siendo idénticos en los ejemplos artificiales.

Tenga en cuenta que la diferencia clave es que el intervalo de confianza es una afirmación sobre lo que ocurriría si se repitiera el experimento muchas veces, el intervalo de credibilidad es una afirmación sobre lo que se puede inferir de esta muestra en particular.

0 votos

Dikran, esta respuesta es interesante, pero creo que algunas mejoras en la redacción ayudarían. En particular, creo que algunos usos coloquiales obstaculizan algunos puntos importantes. Voy a señalar un par de ellos que me llaman la atención, si no te importa, en los siguientes comentarios.

10 votos

El intervalo de confianza es la respuesta a la pregunta "dame un intervalo que ponga entre paréntesis el valor verdadero de la estadística con probabilidad p si el experimento se repite un gran número de veces". El intervalo de credibilidad es la respuesta a la pregunta "dame un intervalo que ponga entre paréntesis el valor verdadero con probabilidad p". En primer lugar, la afirmación relativa a una interpretación frecuentista de la probabilidad deja que desear. Tal vez, la cuestión radica en el uso de la palabra probabilidad en esa frase. En segundo lugar, la "definición" de intervalo creíble me parece demasiado simplista...

9 votos

...y un poco engañosa teniendo en cuenta la caracterización que se hace de una IC. En una línea relacionada, la frase final tiene el mismo problema: Si quiere un intervalo que contenga el valor verdadero el 95% de las veces, elija un intervalo creíble, no un intervalo de confianza. El uso coloquial de "contiene el verdadero valor el 95% de las veces" es un poco impreciso y deja una impresión equivocada. De hecho, puedo argumentar de forma convincente (creo) que esa redacción es mucho más cerca de ser la definición de una IC.

34voto

Las probabilidades relacionadas con la teórica largo plazo de los eventos, que trabajar incluso si ejecuta los eventos en el largo plazo, simplemente no se refieren a un solo evento después de que se hace. Y la ejecución de un experimento y cálculo de la CI es tan sólo un evento.

Usted querido comparar a la probabilidad de que un oculto moneda cabezas.. tal vez puedo trabajar con eso. Vamos a ver si me puede completamente el tornillo esta pegado a la analogía.

Al ejecutar el experimento y recoger sus datos, usted tiene algo similar a la actual cara de la moneda. El proceso del experimento es como el proceso de voltear la moneda en que se genera $\mu$ or it doesn't just like the coin is heads or it's not. Once you flip the coin, whether you see it or not, there is no probability that it's heads, it's either heads or it's not. Now suppose you call heads. That's what calculating the CI is. Because you can't ever reveal the coin (your analogy to an experiment would vanish). Either you're right or you're wrong, that's it. Does it's current state have any relation to the probability of it coming up heads on the next flip, or that I could have predicted what it is? No. The process by which the head is produced has a 0.5 probability of producing them but it does not mean that a head that already exists has a 0.5 probability of being. Once you calculate your CI there is no probability that it captures $\mu$, se realiza o no-que ya ha volteado la moneda.

OK, creo que me he torturado que suficiente. El punto crítico es realmente que tu analogía es errónea. Usted no puede revelar la moneda, sólo puede llamar a cara o cruz, basándose en suposiciones acerca de las monedas (experimentos). Es posible que desee realizar una apuesta después sobre sus cabezas o colas de ser correcta, pero nunca se pueden cobrar.

Probablemente, lo que hace que el CI confuso es el nombre. Es un rango de valores que hacer o no contener $\mu$. We think they likely contain $\mu$ but the probability of that isn't the same as the process that went into developing it. The 95% part of the 95% CI name is just about the process. You can calculate a range that you believe afterwards contains $\mu$ en algún nivel de probabilidad, pero eso es un cálculo diferentes y no un CI.

Es mejor pensar en el nombre IC del 95% como denominación de un tipo de medida de un intervalo de valores que usted piensa que es factible que contienen $\mu$ and separate the 95% from that plausibility. We could call it the Jennifer CI while the 99% CI is the Wendy CI. That might actually be better. Then, afterwards we can say that we believe $\mu$ is likely to be in the range of values and no one would get stuck saying that there is a Wendy probability that we've captured $\mu$. Si te gustaría tener una diferente designación creo que probablemente, usted debe sentirse libre para deshacerse de la "confianza" por parte de CI (pero es un intervalo).

0 votos

Para ser justos esta respuesta me parece bien, pero me encantaría ver una descripción formal (matemática) de la misma. Con formal, me refiero a convertirla en eventos. Me explico: recuerdo haber estado muy confundido con $p$ valores al inicio. En algún lugar leí que "lo que $p$ Los valores que se calculan en realidad son la probabilidad de los datos dado que la hipótesis nula, $H_0$ es cierto". Cuando relacioné esto con el teorema de Bayes, todo tuvo tanto sentido que ahora puedo explicarlo a todo el mundo (es decir, que uno calcula $p(D|H_0)$ ). Sin embargo, no estoy (irónicamente) tan seguro...

0 votos

...(continuación) con los intervalos de confianza: ¿hay una manera de expresar lo que ha dicho en términos de conocimiento? En la estadística de frecuencias se suele calcular una estimación puntual, $\hat{\mu}$ con algún método (por ejemplo, MLE). ¿Hay alguna forma de escribir $P(L_1(\hat{\mu})<\mu<L_2(\hat{mu})|D)$ (por ejemplo, con un intervalo posterior central bayesiano, con $\mu$ la "media verdadera") en función de $P(L_1'<\bar{X}-\mu<L_2')=\alpha$ (es decir, lo que el $\alpha$ de los intervalos de confianza es realmente), como cuando se puede expresar $p(H_0|D)$ en función de $p(D|H_0)$ ? Intuitivamente siempre he pensado que se puede hacer, pero nunca lo he hecho.

0 votos

A veces, poder borrar los comentarios tiene sus inconvenientes. En este caso, no pude seguir el ritmo de los rápidos cambios.

26voto

Sean Hanley Puntos 2428

Las ideas formales y explícitas sobre los argumentos, la inferencia y la lógica se originaron, dentro de la tradición occidental, con Aristóteles. Aristóteles escribió sobre estos temas en varias obras diferentes (incluida una llamada Temas ;-) ). Sin embargo, el principio más básico es La ley de la no contradicción que se puede encontrar en varios lugares, entre ellos Metafísica libro IV, capítulos 3 y 4. Una formulación típica es: " ...es imposible que algo sea y no sea al mismo tiempo [en el mismo sentido]" (1006 a 1). Su importancia se afirma un poco antes: " ...este es naturalmente el punto de partida incluso para todos los demás axiomas" (1005 b 30). Perdonen que me ponga filosófico, pero esta cuestión, por su naturaleza, tiene un contenido filosófico que no puede dejarse de lado por comodidad.

Considere este experimento mental: Alex lanza una moneda, la coge y la hace girar sobre su antebrazo con la mano cubriendo el lado que mira hacia arriba. Bob estaba en la posición correcta; vio brevemente la moneda en la mano de Alex y, por lo tanto, puede deducir qué lado está mirando hacia arriba. Sin embargo, Carlos no vio la moneda, no estaba en el lugar correcto. En ese momento, Alex les pregunta cuál es la probabilidad de que la moneda salga cara. Carlos sugiere que la probabilidad es de 0,5, ya que esa es la frecuencia a largo plazo de las caras. Bob no está de acuerdo, afirma con seguridad que la probabilidad no es otra que exactamente 0 .

Ahora, ¿quién tiene razón? Es posible, por supuesto, que Bob vea mal y esté equivocado (supongamos que no vio mal). Sin embargo, no se puede sostener que ambos tienen razón y mantener la ley de no contradicción. (Supongo que si no crees en la ley de no contradicción, podrías pensar que ambos tienen razón, o alguna otra formulación parecida). Ahora imagina un caso similar, pero sin Bob presente, ¿podría la sugerencia de Carlos ser más correcta (eh?) sin Bob alrededor, ya que nadie vio la moneda? La aplicación de la ley de no contradicción no es tan clara en este caso, pero creo que es obvio que las partes de la situación que parecen ser importantes se mantienen constantes de la primera a la segunda. Ha habido muchos intentos de definir la probabilidad, y es posible que en el futuro haya todavía muchos más, pero una definición de la probabilidad en función de quiénes son los que están por ahí y dónde están situados tiene poco atractivo. En cualquier caso (adivinando por su uso de la frase " confianza intervalo"), estamos trabajando dentro del enfoque frecuencial, y en él si alguien conoce el verdadero estado de la moneda es irrelevante. No es una variable aleatoria: es un valor realizado y, o bien sale cara, o bien sale cruz.

Como señala @John, el estado de una moneda puede no parecer a primera vista similar a la cuestión de si un intervalo de confianza cubre la verdadera media. Sin embargo, en lugar de una moneda, podemos entenderlo abstractamente como un valor realizado extraído de una distribución Bernoulli con parámetro $p$ . En la situación de la moneda, $p=.5$ mientras que para un IC del 95%, $p=.95$ . Lo importante es darse cuenta de que la parte importante de la metáfora no es la $p$ que rige la situación, sino que la volteado moneda o el calculado CI es un valor realizado no es una variable aleatoria.

Es importante para mí señalar en este punto que todo esto es el caso dentro de una concepción frecuentista de la probabilidad. La perspectiva bayesiana no viola la ley de no contradicción, simplemente parte de supuestos metafísicos diferentes sobre la naturaleza de la realidad (más concretamente sobre la probabilidad). Otros en CV están mucho más versados que yo en la perspectiva bayesiana, y tal vez puedan explicar por qué los supuestos en los que se basa su pregunta no se aplican dentro del enfoque bayesiano, y que de hecho, hay puede ser una probabilidad del 95% de que la media esté dentro de un 95% creíble bajo ciertas condiciones, incluyendo (entre otras) que el previo utilizado sea preciso (ver el comentario de @DikranMarsupial más abajo). Sin embargo, creo que todos estarían de acuerdo en que, una vez que se afirma que se trabaja con el enfoque frecuentista, no puede darse el caso de que la probabilidad de que la media real se encuentre dentro de un IC del 95% concreto sea de 0,95.

8 votos

Según el enfoque bayesiano, no es cierto que exista una probabilidad del 95% de que el valor verdadero se encuentre en un intervalo de credibilidad del 95%. Sería más correcto decir que, dada una determinada distribución a priori para el valor del estadístico (que representa nuestro estado de conocimiento inicial), tras observar los datos tenemos una distribución posterior que representa nuestro estado de conocimiento actualizado, que nos da un intervalo en el que estamos seguros al 95% de que se encuentra el valor verdadero. Esto sólo será exacto si nuestro previo es exacto (y otras suposiciones como la forma de la probabilidad).

0 votos

@DikranMarsupial, gracias por el apunte. Es un poco de boca. He editado mi respuesta para hacerla más coherente con tu sugerencia, pero no la he copiado in toto . Hágame saber si es necesario realizar más ediciones.

1 votos

Esencialmente, el enfoque bayesiano se interpreta mejor como una declaración de su estado de conocimiento con respecto al parámetro de interés (ver cardinal, estoy aprendiendo ;o), pero no garantiza que ese estado de conocimiento sea correcto a menos que todos los supuestos sean correctos. Me ha gustado la discusión filosófica, tendré que recordar la ley de no contradicción para la próxima vez que se hable de lógica difusa ;o)

14voto

Michael Chapman Puntos 148

Me sorprende que nadie haya sacado a relucir el ejemplo de Berger de un intervalo de confianza del 75%, esencialmente inútil, descrito en el segundo capítulo de "El principio de probabilidad". Los detalles se pueden encontrar en el texto original (que es disponible gratuitamente en el Proyecto Euclides ): lo esencial del ejemplo es que describe, sin ambigüedad, una situación en la que se sabe con absoluta certeza el valor de un parámetro aparentemente desconocido después de observar los datos, pero usted afirmaría que sólo tiene 75% de confianza que su intervalo contiene el valor verdadero. Trabajar en los detalles de ese ejemplo fue lo que me permitió comprender toda la lógica de la construcción de intervalos de confianza.

Editar : El enlace del Proyecto Euclides parece estar roto a partir del 2022-01-21. La monografía puede encontrarse, por ejemplo, en aquí o aquí .

10 votos

En un entorno frecuentista, uno podría pas "afirmar que sólo tiene un 75% de confianza en que su intervalo contiene el valor verdadero" en referencia a un IC, en primer lugar. Aquí está el quid de la cuestión:)

2 votos

¿puede proporcionar un enlace directo o una referencia a la página de ese ejemplo? He buscado en el capítulo pero no he podido identificar el ejemplo correcto.

0 votos

@Ronald: Es el primero de la primera página del capítulo 2. Un enlace directo sería una adición bienvenida.

4voto

Michael Kropat Puntos 3993

Aunque se ha debatido ampliamente en las numerosas y magníficas respuestas, quiero añadir una perspectiva más sencilla. (aunque se ha aludido en otras respuestas - pero no explícitamente.) Para algún parámetro $\theta$ y dada una muestra $(X_1,X_2,\cdots,X_n)$ , a $100p\%$ El intervalo de confianza es un enunciado de probabilidad de la forma

$$P\left(g(X_1,X_2,\cdots,X_n)<\theta<f(X_1,X_2,\cdots,X_n)\right)=p$$

Si consideramos $\theta$ sea una constante, entonces la afirmación anterior es sobre las variables aleatorias $g(X_1,X_2,\cdots,X_n)$ y $f(X_1,X_2,\cdots,X_n)$ o más exactamente, se trata del intervalo aleatorio $\left(g(X_1,X_2,\cdots,X_n),f(X_1,X_2,\cdots,X_n)\right)$ .

Así que en lugar de dar información sobre la probabilidad de que el parámetro esté contenido en el intervalo, está dando información sobre la probabilidad de que el intervalo contenga el parámetro - ya que el intervalo está hecho de variables aleatorias.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X