9 votos

La importancia de interpretar correctamente un intervalo de confianza

Dado un intervalo de confianza con un nivel de confianza del 95%, es incorrecto afirmar que la probabilidad de que el parámetro estimado esté incluido en el intervalo de confianza es del 95%.

La razón es que la muestra ya se ha tomado; el valor real se incluye o no en ella. La noción de aleatoriedad ya no es aplicable.

Pero mi pregunta es ¿cuál es la importancia de esta distinción? ?

P.D. Si puede ilustrar la respuesta con un ejemplo realista, que pueda entender una persona sin una gran formación estadística, se lo agradecería.

7voto

icelava Puntos 548

Seré sincero: No creo que la distinción real sea tan importante. Sí, decir que "la probabilidad de que el parámetro estimado se incluya en el intervalo de confianza es del 95%" es incorrecto, precisamente por la razón que das. Sin embargo, no creo que sea un problema grave. (Me interesaría conocer cualquier otro punto de vista. ¿Esta forma incorrecta de escribir ha provocado alguna vez problemas "reales"?)

Si se realiza un único experimento y se obtiene un único IC, entonces sí, contiene o no contiene el verdadero valor del parámetro:

single CI

Como usted escribe, ya no hay probabilidad. La interpretación correcta de un IC sólo se produce si (explícita o implícitamente) ejecutamos exactamente lo mismo experimente muchas veces y recoja todos ICs:

100 CIs

Y aquí vemos que (aproximadamente) el 95% de los IC contienen el parámetro correcto. (El IC del experimento individual de la imagen anterior es el que aparece en la parte inferior de este segundo gráfico).

Sí, sería mejor si todo el mundo utilizara la nomenclatura correcta, o al menos tuviera la interpretación correcta que implica muchas repeticiones del experimento en el fondo de su cabeza mientras escriben descuidadamente. Pero la gente no lo hace.

Y, sinceramente, no creo que sea para tanto.

Código R:

set.seed(1)
n_population <- 1e6
xx_population <- runif(n_population)
param <- 0.5
yy_population <- 2+param*xx_population+rnorm(n_population,0,0.5)

n_analyses <- 100
n_sample <- 30

CIs <- matrix(NA,nrow=n_analyses,ncol=3)
for ( ii in 1:n_analyses ) {
    index <- sample(1:n_population,n_sample)
    model <- lm(yy_population[index]~xx_population[index])
    CIs[ii,] <- c(confint(model)[2,1],coef(model)[2],confint(model)[2,2])
}

opar <- par(mai=c(.5,.1,.1,.1))
ii <- 1
plot(range(CIs),c(ii,ii),type="n",xlab="",ylab="",yaxt="n")
lines(CIs[ii,c(1,3)],rep(ii,2),col=2-(CIs[ii,1]<param&param<CIs[ii,3]))
points(CIs[ii,2],ii,pch=19,col=2-(CIs[ii,1]<0.5&0.5<CIs[ii,3]))
abline(v=param,lty=2,lwd=2)

plot(range(CIs),c(1,n_analyses),type="n",xlab="",ylab="",yaxt="n")
sapply(1:n_analyses,function(ii)lines(CIs[ii,c(1,3)],rep(ii,2),col=2-(CIs[ii,1]<param&param<CIs[ii,3])))
points(CIs[,2],1:n_analyses,pch=19,col=2-(CIs[,1]<0.5&0.5<CIs[,3]))
abline(v=param,lty=2,lwd=2)

0voto

MathComputC Puntos 6

Supongamos que estás estimando el precio de una casa utilizando unas características dadas. Entonces, cuando alguien le dice que averigüe el $95$ % de intervalo de confianza del precio , dadas algunas características . Así que básicamente estás encontrando un intervalo $[x, y]$ de modo que la probabilidad de que su precio se encuentre en este intervalo $[x,y]$ es $0.95$ (es decir $95$ %).

Espero que esto ayude.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X