50 votos

¿Aclaración sobre la interpretación de los intervalos de confianza?

Mi comprensión actual de la noción de "intervalo de confianza con nivel de confianza $1 - \alpha$ "es que si intentamos calcular el intervalo de confianza muchas veces (cada vez con una muestra nueva), contendría el parámetro $1 - \alpha$ del tiempo.

Aunque me doy cuenta de que esto no es lo mismo que "la probabilidad de que el parámetro verdadero se encuentre en este intervalo", hay algo que quiero aclarar.

[Actualización importante]

Antes de calcular un intervalo de confianza del 95%, existe una probabilidad del 95% de que el intervalo que calculamos cubra el parámetro verdadero. Después de que hayamos calculado el intervalo de confianza y hayamos obtenido un intervalo determinado $[a,b]$ Ya no podemos decir esto. Ni siquiera podemos hacer una especie de argumento no frecuentista de que estamos 95% seguros de que el verdadero parámetro estará en $[a,b]$ ya que si pudiéramos, se contradeciría con contraejemplos como éste: ¿Qué es exactamente un intervalo de confianza?

No quiero hacer de esto un debate sobre la filosofía de la probabilidad, sino que busco una explicación precisa y matemática del cómo y el porqué de ver el intervalo concreto $[a,b]$ cambia (o no cambia) la probabilidad del 95% que teníamos antes de ver ese intervalo. Si argumentas que "después de ver el intervalo, la noción de probabilidad deja de tener sentido", entonces bien, trabajemos en una interpretación de la probabilidad en la que hace tiene sentido.

Más concretamente:

Supongamos que programamos un ordenador para calcular un intervalo de confianza del 95%. El ordenador hace algunos cálculos, calcula un intervalo y se niega a mostrarme el intervalo hasta que introduzca una contraseña. Antes de introducir la contraseña y ver el intervalo (pero después de que el ordenador lo haya calculado), ¿cuál es la probabilidad de que el intervalo contenga el parámetro verdadero? Es del 95%, y esta parte no se puede debatir : esta es la interpretación de la probabilidad que me interesa para esta pregunta en particular (me doy cuenta de que hay cuestiones filosóficas importantes que estoy suprimiendo, y esto es intencional).

Pero en cuanto introduzco la contraseña y hago que el ordenador me muestre el intervalo que ha calculado, la probabilidad (de que el intervalo contenga el parámetro verdadero) podría cambiar. Cualquier afirmación de que esta probabilidad nunca cambia contradiría el contraejemplo anterior. En este contraejemplo, la probabilidad podría cambiar del 50% al 100%, pero...

  • ¿Hay algún ejemplo en el que la probabilidad cambie a algo distinto del 100% o del 0% (EDIT: y si es así, cuáles son)?

  • ¿Hay algún ejemplo en el que la probabilidad no cambie después de ver el intervalo particular $[a,b]$ (es decir, la probabilidad de que el parámetro verdadero se encuentre en $[a,b]$ sigue siendo del 95%)?

  • ¿Cómo (y por qué) cambia la probabilidad en general después de ver que el ordenador escupe $[a,b]$ ?

[Editar]

Gracias por todas las buenas respuestas y los útiles debates.

4voto

mr02077 Puntos 26

La razón por la que el intervalo de confianza no especifica "la probabilidad de que el parámetro verdadero se encuentre en el intervalo" es porque una vez especificado el intervalo, el parámetro se encuentra en él o no. Sin embargo, para un intervalo de confianza del 95%, por ejemplo, tiene un 95% de posibilidades de crear un intervalo de confianza que sí contenga el valor. Este es un concepto bastante difícil de entender, así que puede que no lo esté articulando bien. Véase http://frank.itlab.us/datamodel/node39.html para una mayor aclaración.

3voto

Chris Bunch Puntos 639

En la estadística frecuentista, el evento $E$ es fijo -- el parámetro se encuentra en $[a, b]$ o no lo hace. Por lo tanto, $E$ es independiente de $C$ et $C'$ y por eso ambos $P(E|C) = P(E)$ et $P(E|C') = P(E)$ .

(En su argumento, parece pensar que $P(E|C) = 1$ et $P(E|C') = 0$ (lo cual es incorrecto).

3voto

Shawn Puntos 8120

La forma en que planteas el problema es un poco confusa. Tome esta declaración: Que $E$ sea el caso de que el parámetro verdadero caiga en el intervalo $[a,b]$ . Esta afirmación no tiene sentido desde una perspectiva frecuentista; el parámetro es el parámetro y no cae en ningún sitio, simplemente es. P(E) no tiene sentido, P(E|C) no tiene sentido y por eso tu ejemplo se cae. El problema tampoco es condicionar a un conjunto de medida cero; el problema es que estás intentando hacer afirmaciones de probabilidad sobre algo que no es una variable aleatoria.

Un frecuentista diría algo así: Dejemos que $\tilde E$ sea el caso de que el intervalo $(L(X), U(X))$ contiene el parámetro verdadero. Esto es algo a lo que un frecuentista puede asignar una probabilidad.

Editar: @G. Jay Kerns hace el argumento mejor que yo, y escribe más rápido, así que probablemente sólo seguir adelante :)

3voto

mat_geek Puntos 1367

Hay tantas explicaciones largas aquí que no tengo tiempo de leerlas. Pero creo que la respuesta a la pregunta básica puede ser corta y dulce. Es la diferencia entre una probabilidad incondicional a los datos. La probabilidad de 1-alfa antes de recoger los datos es la probabilidad de que el procedimiento bien definido incluya el parámetro. Después de recoger los datos y conocer el intervalo específico que se ha generado, el intervalo es fijo y, por tanto, como el parámetro es una constante, esta probabilidad condicional es 0 o 1. Pero como no conocemos el valor real del parámetro incluso después de recoger los datos no sabemos qué valor es.

Ampliación del post de Michael Chernick copiado de los comentarios:

existe una excepción patológica que puede llamarse estimación perfecta. Supongamos que tenemos un proceso autorregresivo de primer orden dado por X(n)=pX(n-1) + en. Es estacionario por lo que sabemos que p no es 1 o -1 y es < 1 en valor absoluto. Ahora los en son independientes idénticamente distribuidos con una distribución mixta hay una probabilidad positiva q de que en= 0

Existe una excepción patológica que puede denominarse estimación perfecta. Supongamos que tenemos un proceso autorregresivo de primer orden dado por X(n)=pX(n-1) + en. Es estacionario por lo que sabemos que p no es 1 o -1 y es < 1 en valor absoluto.

Ahora los en son independientes idénticamente distribuidos con una distribución mixta hay una probabilidad positiva q de que en=0 y con probabilidad 1-q tiene una distribución absolutamente continua (digamos que la densidad es no nula en un intervalo acotado lejos de 0. Entonces recoge los datos de la serie temporal secuencialmente y para cada par sucesivo de valores estima p por X(i)/X(i-1). Ahora, cuando ei = 0, la relación será exactamente igual a p.

Como q es mayor que 0 eventualmente la relación repetirá un valor y ese valor tiene que ser el valor exacto del parámetro p porque si no lo es el valor de ei que no es 0 se repetirá con probabilidad 0 y ei/x(i-1) no se repetirá.

Así que la regla de parada secuencial es muestrear hasta que la proporción se repita exactamente y luego utilizar el valor repetido como la estimación de p. Dado que es p exactamente cualquier intervalo que se construya centrado en esta estimación tiene probabilidad 1 de incluir el verdadero parámetro. Aunque este es un ejemplo patológico que no es práctico, existen procesos estocásticos estacionarios con las propiedades que requerimos para la distribución del error

2voto

TauEpsilonChi Puntos 31

La cuestión puede caracterizarse como una confusión de la probabilidad a priori y a posteriori o tal vez como la insatisfacción de no conocer la distribución conjunta de ciertas variables aleatorias.

Acondicionamiento

Como ejemplo introductorio, consideramos un modelo para el experimento de sacar, sin reemplazo, dos bolas de una urna con $n$ bolas numeradas de $1$ a $n$ . La forma típica de modelar este experimento es con dos variables aleatorias $X$ et $Y$ , donde $X$ es el número de la primera bola y $Y$ es el número de la segunda bola, y con la distribución conjunta $P(X=x \land Y=y) = 1/(n(n-1))$ para todos $x,y \in N := \{1,\dots,n\}$ con $x \neq y$ . De este modo, todos los resultados posibles tienen la misma probabilidad positiva, y los resultados imposibles (por ejemplo, sacar la misma bola dos veces) tienen probabilidad cero. De ello se desprende que $P(X=x)=1/n$ et $P(Y=x)=1/n$ para todos $x \in N$ .

Que se realice el experimento y se nos revele la segunda bola, mientras que la primera bola se mantiene en secreto. Denotemos $t$ el número de la segunda bola. Entonces, todavía, $P(X=x)=1/n$ para todos $x \in N$ . Sin embargo, para cada $x \in N$ , nuestro grado de creencia que el evento $X=x$ ha sucedido, debe ser ahora $P(X=x \vert Y=t) = P(X=x \land Y=t) / P(Y=t)$ , que en el caso de $x \neq t$ es $1/(n-1)$ , y en caso de $x = t$ Es decir, es $0$ . Esta es la probabilidad de $X=x$ condicionada a la información que $Y=t$ que ha sucedido, también llamada la probabilidad posterior de $X=x$ , es decir, la probabilidad actualizada de $X=x$ después de obtener las pruebas que $Y=t$ sucedió. Sigue siendo $P(X=x)=P(Y=x)=1/n$ para todos $x \in N$ , son las probabilidades a priori.

No condicionar a las pruebas significa ignorarlas. Sin embargo, sólo podemos condicionar lo que es expresable en el modelo probabilístico. En nuestro ejemplo con las dos bolas de la urna no podemos condicionar sobre el tiempo o sobre cómo nos sentimos hoy. En el caso de que tengamos razones para creer que eso es una evidencia relevante para el experimento, debemos cambiar nuestro modelo primero para permitirnos expresar esta evidencia como eventos formales.

Dejemos que $C$ sea la variable aleatoria indicadora que dice si la primera bola tiene un número menor que la segunda bola, es decir $C = 1 \Longleftrightarrow X < Y$ . Entonces $P(C=1) = 1/2$ . De nuevo $t$ sea el número de la segunda bola, que se nos revela, pero el número de la primera bola es secreto. Entonces es fácil ver que $P(C=1 \vert Y=t) = (t-1) / (n-1)$ . En particular $P(C=1 \vert Y=1) = 0$ , lo que en nuestro modelo significa que $C=1$ ciertamente no ha sucedido. Además, $P(C=1 \vert Y=n) = 1$ , lo que en nuestro modelo significa que $C=1$ ciertamente ha sucedido. Sigue siendo $P(C=1) = 1/2$ .

Intervalo de confianza

Dejemos que $X = (X_1, \dots, X_n)$ sea un vector de $n$ variables aleatorias i.i.d. Sea $(l,u)$ sea un estimador de intervalo de confianza (CIE) con nivel de confianza $\gamma$ para un parámetro real de la distribución de las variables aleatorias en $X$ , es decir, $l$ et $u$ son funciones de valor real con dominio $\mathbb{R}^n$ , de manera que si $\theta \in \mathbb{R}$ es el valor real del parámetro, entonces $P(l(X) \leq \theta \leq u(X)) \geq \gamma$ .

Dejemos que $C$ sea la variable aleatoria indicadora que dice si $(l,u)$ determinó el parámetro correcto, es decir, $C = 1 \Longleftrightarrow l(X) \leq \theta \leq u(X)$ . Entonces $P(C=1) \geq \gamma$ .

Recojamos los datos para tener valores $x = (x_1,\dots,x_n) \in \mathbb{R}^n$ , donde $x_i$ es la realización de $X_i$ para todos $i$ . Entonces nuestro grado de creencia que el evento $C=1$ sucedido debe ser $\delta := P(C=1 \vert X = x)$ . En general, no podemos calcular esta probabilidad condicional, pero sabemos que es $0$ o $1$ , ya que $(C = 1 \land X = x) \Longleftrightarrow ((l(x) \leq \theta \leq u(x)) \land X = x)$ . Si $l(x) \leq \theta \leq u(x)$ es falsa, entonces esta última afirmación es falsa, y por lo tanto $\delta=0$ . Si $l(x) \leq \theta \leq u(x)$ es verdadera, entonces esta última afirmación es equivalente a $X=x$ y por lo tanto $\delta=1$ . Si sólo conocemos los valores $l(x)$ et $u(x)$ y no los datos $x$ , todavía podemos argumentar de manera similar que $\delta \in \{0,1\}$ .

Sigue siendo $P(C=1) \geq \gamma$ . Si, para nuestro grado de creencia que $C=1$ que ha sucedido, nos gusta más esta probabilidad previa, entonces debemos ignorar $x$ y esto también significa ignorar el intervalo de confianza $[l(x),u(x)]$ . Diciendo que $[l(x),u(x)]$ contenido $\theta$ con una probabilidad de al menos $\gamma$ , significaría reconocer esta evidencia y al mismo tiempo ignorarla.

Aprender más, saber menos

Lo que hace que esta situación sea tan difícil de entender puede ser el hecho de que que no podemos calcular la probabilidad condicional $\delta$ . Pero esto no es particular de la situación del CIE, sino que puede ocurrir siempre que tengamos información insuficiente sobre la distribución conjunta de las variables aleatorias. Como ejemplo, pongamos $X$ et $Y$ sean variables aleatorias discretas y que sus distribuciones marginales estén dadas, es decir, para cada $x \in \mathbb{R}$ Sabemos que $P(X=x)$ et $P(Y=x)$ . Esto no nos da su distribución conjunta, es decir no sabemos $P(X=x \land Y=y)$ para cualquier $x,y \in \mathbb{R}$ . Supongamos que un resultado de este experimento debe ser reportado como el valor del vector aleatorio $(X,Y)$ , es decir, los resultados deben presentarse como pares de números reales.

Realicemos el experimento subyacente y supongamos que aprendemos que $Y=7$ que ha sucedido, mientras que el valor de $X$ es todavía desconocido para nosotros. Esto no cambia $P(X=x)$ para cualquier $x$ . Sin embargo, sería problemático decir que el resultado del experimento fue de la forma $(x,7)$ , donde $x \in \mathbb{R}$ , y que la probabilidad para cada número real particular $x$ por ser el primer componente de este par fue $P(X=x)$ . Es problemático ya que de esta manera, reconoceríamos la evidencia $Y=7$ y, al mismo tiempo, ignorarla. Reconocemos la evidencia $Y=7$ informando que el segundo componente del par es $7$ . Lo ignoramos utilizando la probabilidad a priori $P(X=x)$ donde de hecho nuestro grado de creencia para $X=x$ debe ser ahora $P(X=x \vert Y=7) = P(X=x \land Y=7) / P(Y=7)$ que lamentablemente no podemos calcular.

Puede ser insatisfactorio que en cierto sentido, saber más sobre $Y$ nos obliga a decir menos sobre $X$ . Pero hasta donde yo sé, las cosas son así.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X