11 votos

Si no Poisson, entonces, ¿qué distribución es esto?

Tengo un conjunto de datos que contiene el número de acciones realizadas por los individuos en el curso de 7 días. La acción específica no debería ser relevante para esta pregunta. Aquí están algunas estadísticas descriptivas para el conjunto de datos: $$ \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} $$

Aquí es un histograma de los datos: action histogram

A juzgar por el origen de los datos, me imaginé que se ajuste a una distribución de Poisson. Sin embargo, la media ≠ varianza, y el histograma es el que se recurre a la izquierda. Además, me encontré con la goodfit prueba en R y tengo:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

El método de Probabilidad Máxima también obtuvieron una p-valor = 0. Suponiendo que la hipótesis nula es: coincide con los datos de una distribución de Poisson (la documentación no especifica esto), entonces el goodfit prueba dice que debemos rechazar la hipótesis nula, por lo tanto los datos no coincide con una distribución de Poisson.

Es que el análisis correcto? Si es así, ¿qué distribución crees que se ajuste a estos datos?

Mi objetivo final es comparar el número medio de acciones entre 2 muestras para ver si los medios son diferentes; es el control de la distribución, incluso, necesario? Mi entendimiento es la típica de las pruebas (z,t,$\chi^2$ pruebas) no funcionan para distribuciones de Poisson. ¿Qué pruebas debo usar si los datos es, en efecto Poisson se distribuye?

8voto

Dan Midwood Puntos 156

Si la varianza es mayor que la media, a continuación, esto se llama sobre-dispersión. Un modelo natural de esto es el negativo de la distribución binomial. Esto también puede ser visto como una distribución de Poisson, donde el Parámetro lambda sigue una distribución Gamma. Un primer paso fácil y podría ser el ajuste a una distribución binomial negativa.

6voto

samiq Puntos 1128

Si su prima-los datos de recuento, no se parece a una distribución de Poisson, entonces usted está perdiendo algo. Quizá el número de acciones es dependiente de la temperatura, por lo que en días de calor, la gente a hacer menos cosas. A continuación, la variación de la temperatura durante su período de estudio podría afectar a la distribución y hacen que no sea de Poisson.

Sin embargo, el número de acciones que cada día podría ser todavía de Poisson con una media depende de la temperatura. Si usted tiene la temperatura de cada día, entonces usted puede hacer un GLM, la regresión de número de acciones como una variable de Poisson, dependiente de la temperatura. Si que se adapta muy bien, trabajo hecho.

Si usted no tiene posibles variables explicativas, entonces todo lo que puedo decir es "algo más está sucediendo en el número de acciones no es independiente de Poisson muestras" - es decir, rechazar su hipótesis nula.

Hay pruebas de distribución libre que se puede comparar emparejado observaciones mediante el uso de puestos, y así sucesivamente. Por lo general, hacer un gran número de permutaciones y calcular un estadístico de prueba...

5voto

Andrew Puntos 629

Sospecho que su histograma se discretizan engañosamente. Si usted tiene un poco más de 300 observaciones uniformemente a través del rango 0-50, a unos 320 repartido de manera uniforme en todo el rango de 50 a 100, y 50 o más por encima de 100, su media debe ser considerablemente mayor que 18.2.

Si los datos en el rango 0-50 no están uniformemente sino que se concentraron cerca de cero, entonces ver más en el rango de 50-100 que en el rango 0-50 es sorprendente.

Tal vez usted tiene una mezcla de distribuciones. Dudo que cualquier persona puede hacer mucho con este sin el real 696 observaciones y sobre todo sin saber más sobre el contexto. Es cada uno de los 696 observaciones de un individuo y es la respuesta que el número de acciones que cada individuo tomó? Si es así, ¿hay diferentes tipos de individuos en los datos?

4voto

jasonmray Puntos 1303

Una cosa más: Usted debe investigar los valores atípicos en los datos de recuento. Tienes una cuenta en 400-ish y luego nada hasta 800-ish. Que no es probable que se ajuste por cualquiera de los modelos comunes.

1voto

Chris Alparas Puntos 21

Usted parece estar contando el número de cero eventos - si es así, entonces usted podría considerar la posibilidad de un ZIP modelo (o Obstáculo) - consulte los Modelos de Regresión para Datos de Conteo en R por Zeileis et al para una visión de conjunto.

Aproximadamente resumen, estos métodos modelo el cero de la cuenta por separado del resto de la cuenta que podría ser útil en su caso.

Consulte la pscl paquete y el zeroinfl() y hurdle() funciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X