9 votos

Funciones discretas: ¿Cobertura del intervalo de confianza?

¿Cómo calcular la cobertura de intervalos discretos?

Lo que sé hacer:

Si tuviera un modelo continuo, podría definir un intervalo de confianza del 95% para cada uno de mis valores predichos, y luego ver con qué frecuencia los valores reales se encontraban dentro del intervalo de confianza. Podría descubrir que sólo el 88% de las veces mi intervalo de confianza del 95% cubre los valores reales.

Lo que no sé hacer:

¿Cómo hago esto para un modelo discreto, como poisson o gamma-poisson? Lo que tengo para este modelo es lo siguiente, tomando una sola observación (de más de 100.000 que planeo generar:)

Observación #: (arbitraria)

Valor previsto: 1,5

Probabilidad prevista de 0: .223

Probabilidad prevista de 1: .335

Probabilidad prevista de 2: .251

Probabilidad prevista de 3: .126

Probabilidad prevista de 4: .048

Probabilidad prevista de 5: .014 [y 5 o más es .019]

...(etc)

Probabilidad prevista de 100 (o de alguna otra cifra irreal): .000

Valor real (un número entero como "4")

Tenga en cuenta que, aunque he dado valores de Poisson arriba, en el modelo real un valor predicho de 1,5 puede tener diferentes probabilidades predichas de 0,1,...100 a través de las observaciones.

Me confunde la discreción de los valores. Un "5" está obviamente fuera del intervalo del 95%, ya que sólo hay 0,019 en 5 y más, que es menos de 0,025. Pero habrá un montón de 4's -- individualmente están dentro, pero ¿cómo evalúo conjuntamente el número de 4's de forma más apropiada?

¿Por qué me importa?

Los modelos que estoy estudiando han sido criticados por ser precisos a nivel agregado pero por dar malas predicciones individuales. Quiero ver hasta qué punto las malas predicciones individuales son peores que los intrínsecamente amplios intervalos de confianza predichos por el modelo. Espero que la cobertura empírica sea peor (por ejemplo, podría encontrar que el 88% de los valores se encuentran dentro del intervalo de confianza del 95%), pero espero que sólo sea un poco peor.

6voto

Auron Puntos 2123

Los intervalos de confianza de Neyman no intentan proporcionar una cobertura del parámetro en el caso de un intervalo concreto. En su lugar, proporcionan cobertura sobre todos los valores posibles del parámetro a largo plazo. En cierto sentido, intentan ser globalmente precisos a expensas de la precisión local.

Los intervalos de confianza para las proporciones binomiales ofrecen una clara ilustración de esta cuestión. La evaluación neymaniana de los intervalos produce gráficos de cobertura irregulares como éste, que es para intervalos Clopper-Pearson del 95% para n=10 ensayos binomiales:

Clopper-Pearson coverage plot

Hay una forma alternativa de hacer la cobertura, que personalmente creo que es mucho más intuitiva y (por tanto) útil. La cobertura por intervalos se puede especificar condicionada al resultado observado. Esa cobertura sería la cobertura local. Aquí hay un gráfico que muestra la cobertura local para tres métodos diferentes de cálculo de intervalos de confindencia para proporciones binomiales: Clopper-Pearson, las puntuaciones de Wilson, y un método exacto condicional que produce intervalos idénticos a los intervalos bayesianos con una prioridad uniforme:

Conditional coverage for three types of interval

Obsérvese que el método Clopper-Pearson del 95% da una cobertura local superior al 98%, pero los intervalos condicionales exactos son, bueno, exactos.

Una forma de pensar en la diferencia entre los intervalos globales y locales es considerar que los globales son inversiones de las pruebas de hipótesis de Neyman-Pearson en las que el resultado es una decisión que se toma sobre la base de la consideración de las tasas de error a largo plazo para el experimento actual como miembro del conjunto global de todos los experimentos que podrían realizarse. Los intervalos locales son más parecidos a la inversión de las pruebas de significación de Fisher, que producen un valor P que representa la evidencia contra el nulo en este particular experimento.

(Que yo sepa, la distinción entre estadística global y local se hizo por primera vez en una tesis de máster no publicada de Claire F Leslie (1998) Lack of confidence : a study of the suppression of certain counter-examples to the Neyman-Pearson theory of statistical inference with particular reference to the theory of confidence intervals. Esta tesis se encuentra en la biblioteca Baillieu de la Universidad de Melbourne).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X