8 votos

Estimación robusta de la distribución de Poisson

Tengo un conjunto de números que se supone proviene de una distribución de Poisson. El conjunto cuenta con algunos valores atípicos también y debido a eso, el máximo de estimaciones de probabilidad son gravemente afectados. He oído que los sólidos procedimientos de estimación puede ayudar en una situación semejante. ¿Puede alguien explicar cómo hacerlo? Yo no soy de las estadísticas de estudiante.

He encontrado que el glmrob función en R puede ser usado para esto. (Yo soy bastante nuevo en R). Pero no pude averiguar, cómo utilizar que, a pesar de la lectura de las páginas de manual. En particular, soy incapaz de comprender cómo obtener un forumula que es el primer argumento de la glmrob función.

Gracias.

2voto

jldugger Puntos 7490

@cardenal ha telegrafiaron una respuesta en los comentarios. Vamos a carne. Su punto es que aunque el general de modelos lineales (tales como el implementado por lm y, en este caso, glmRob) aparecen con la intención de evaluar la relación entre las variables, que pueden ser herramientas poderosas para el estudio de una sola variable, también. El truco se basa en el hecho de que la regresión de los datos en contra de una constante es simplemente otra manera de estimar su valor promedio ("localización").

Como un ejemplo, generar algunos de Poisson de datos distribuidas:

set.seed(17)
x <- rpois(10, lambda=2)

En este caso, R va a producir el vector $(1,5,2,3,2,2,1,1,3,1)$ de los valores de x a partir de una distribución de Poisson de media de $2$. Calcular su ubicación con glmRob:

library(robust)
glmrob(x ~ 1, family=poisson())

La respuesta nos dice que la intercepción se estima en $0.7268$. Por supuesto, cualquier persona que utilice un método estadístico que necesita saber cómo funciona: cuando el uso de modelos lineales generalizados con la distribución de Poisson de la familia, el estándar de "enlace" de la función es el logaritmo. Esto significa que la intersección es el logaritmo de la ubicación aproximada. Así que calcular

exp(0.7268)

El resultado, $2.0685$, que es cómodamente cerca de $2$: el procedimiento parece funcionar. A ver lo que está haciendo, graficar los datos:

plot(x, ylim=c(0, max(x)))
abline(exp(0.7268), 0, col="red")

Plot with fitted line

El amueblada línea es puramente horizontal y por lo tanto las estimaciones de la media de los valores verticales: nuestros datos. Eso es todo lo que está pasando.

Para comprobar la robustez, vamos a crear una mala outlier atacado por un par de ceros en el primer valor de x:

x[1] <- 100

Esta vez, para una mayor flexibilidad en el post-procesado, vamos a guardar la salida de glmRob:

m <- glmrob(x ~ 1, family=poisson())

Para obtener el promedio estimado de podemos pedir

exp(m$coefficients)

El valor de este tiempo es igual a $2.496$: un poco, pero no demasiado lejos, dado que el valor promedio de x (obtenido como mean(x)) es $12$. Ese es el sentido en el que este procedimiento es "sólidos". Más información puede ser obtenida a través de

summary(m)

Su salida nos muestra, entre otras cosas, que el peso asociado con la periferia valor de $100$ x[1] es sólo $0.02179$, casi el $0$, la identificación de la sospecha de valores atípicos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X