21 votos

¿Cómo Poisson distribución al modelar los datos continuos de trabajo y lo hace como resultado en pérdida de información?

Un compañero de trabajo es el análisis de algunos datos biológicos para su tesis doctoral con un poco desagradable Heterocedasticidad (figura de abajo). Ella es el análisis con un modelo mixto, pero todavía está teniendo problemas con los residuos.

Registro-la transformación de las variables de respuesta limpia las cosas y según los comentarios a esta pregunta, este parece ser el enfoque adecuado. Originalmente, sin embargo, se había pensado que había problemas en el uso de variables transformadas con los modelos mixtos. Resulta que la que había sido la interpretación errónea de una declaración en Littell & Milliken (2006) de SAS para Modelos Mixtos que se estaba señalando por qué no es apropiado para transformar el recuento de datos y, a continuación, analizar con un normal lineal modelo mixto (cita completa más abajo).

Un enfoque que también mejora los residuos fue el uso de un modelo lineal generalizado con distribución de Poisson. He leído que la distribución de Poisson puede ser utilizado para el modelado de datos continua (por ejemplo, como se menciona en este post), y las estadísticas de los paquetes permiten, pero no entiendo lo que está pasando cuando el modelo se ajuste.

Para el propósito de la comprensión de cómo los cálculos subyacentes, mis preguntas son: Cuando el ajuste de una distribución de Poisson con datos continuos, 1) ¿los datos redondeados al entero más cercano 2) ¿este resultado en la pérdida de información y 3) Cuando, si alguna vez, es adecuado utilizar un modelo de Poisson para datos continuos?

Littel & Milliken de 2006, página 529 "la transformación de la [cuenta] de datos puede ser contraproducente. Por ejemplo, una transformación que pueden distorsionar la distribución de la aleatorios modelo de efectos o la linealidad del modelo. Lo que es más importante, la transformación de los datos todavía deja abierta la posibilidad de negativa predijo que cuenta. En consecuencia, la inferencia a partir de un modelo mixto utilizando transformadas de datos es altamente sospechoso".

enter image description here

24voto

Neal Puntos 316

He estado calculando continuo resultado positivo regresiones de Poisson con el Huber/White/Sandwich linealizado estimador de la varianza con bastante frecuencia. Sin embargo, eso no es particularmente una buena razón para hacer algo, así que aquí están algunas referencias.

A partir de la teoría lado, $y$ sí no necesita ser un número entero para el estimador basado en la función de probabilidad de Poisson para ser coherente. Los datos no necesitan ser de Poisson. Esto se muestra en Gourieroux, Monfort y Trognon (1984). Yo creía que esto se llama Poisson PMLE o QMLE, para Pseudo/Cuasi Máxima Verosimilitud.

También hay algunos alentadores de simulación de pruebas de Santos Silva y Tenreyro (2006), donde la distribución de Poisson viene en el mejor de exposición. También hace bien en una simulación con un montón de ceros en el resultado. También se puede hacer fácilmente su propia simulación para convencerse de que esto funciona en el caso de copo de nieve.

Por último, también puede utilizar un GLM con un registro de la función de enlace y de Poisson de la familia. Esto produce resultados idénticos, y aplaca el conde-datos-sólo el reflejo de la rodilla reacciones.

Referencias Sin Ungated Enlaces:

Gourieroux, C., A. Monfort y A. Trognon (1984). "Pseudo Métodos de Máxima Verosimilitud: Aplicaciones a Modelos de Poisson," Econometrica, 52, 701-720.

6voto

Iwasakabukiman Puntos 518

Distribución de Poisson es para datos de conteo solo, tratando de alimentar con datos continuos es desagradable y creo que no se debe hacer. Una de las razones es que usted no sabe cómo aumentar la escala de la variable continua. Y la de Poisson depende mucho de la escala! Traté de explicar con un ejemplo sencillo aquí. Así que Por esa sola razón, no me había uso de Poisson para otra cosa que el recuento de datos.

También recuerde que GLM hace 2 cosas - función de enlace (la transformación de la respuesta var., registro en caso de Poisson), y de los residuos (Poisson distrubución en este caso). Pensar acerca de lo biológico tarea, sobre los residuos y, a continuación, seleccione el método apropiado. A veces tiene sentido usar registro de transformar, pero se quedan con una distribución normal de los residuos.

"pero parece ser que la sabiduría convencional es que no debería transformar introducción de datos en un modelo mixto"

Escucho este primer tiempo! No tiene ningún sentido para mí en absoluto. Modelo mixto puede ser sólo como un modelo lineal, sólo con el agregado de efectos aleatorios. Se puede poner una cita exacta aquí? En mi opinión, si el registro de transformar borra las cosas, ¡úsalo!

5voto

StasK Puntos 19497

He aquí otro gran debate de cómo utilizar la distribución de Poisson modelo para que se ajuste el registro de regresiones: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (yo les estoy diciendo a un amigo, así como la entrada en el blog sugiere). La idea básica es que sólo utilizamos la parte de la distribución de Poisson modelo que es el vínculo de registro. La parte que requiere la varianza es igual a la media puede ser reemplazado con un sándwich de estimación de la varianza. Todo esto es porque yo.yo.d. los datos, sin embargo; el clúster/modelo mixto de extensiones han sido debidamente referenciadas por Dimitriy Masterov.

1voto

Peter Burns Puntos 17420

Si el problema es la variación de escala con la media, pero tiene datos continuos, ha pensado sobre el uso de distribuciones continuas que pueden acomodar los problemas que tienes. ¿Tal vez una Gamma? La varianza tendrá una relación cuadrática con la media - como una binomial negativa, realmente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X