23 votos

Distribuciones infladas a cero, ¿qué son en realidad?

Me cuesta entender las distribuciones infladas a cero. ¿Qué son? ¿Qué sentido tienen?

Si tengo datos con muchos ceros, entonces podría ajustar una regresión logística calculando primero la probabilidad de ceros, y luego podría eliminar todos los ceros, y luego ajustar una regresión regular utilizando mi elección de distribución (poisson por ejemplo).

Entonces alguien me dijo "oye, usa una distribución inflada a cero", pero buscándola, no parece hacer nada diferente a lo que sugerí arriba Tiene un parámetro regular $\mu$ y, a continuación, otro parámetro $p$ para modelar la probabilidad de cero? Simplemente hace las dos cosas al mismo tiempo ¿no?

16voto

trish Puntos 31

ajustar una regresión logística primero calcular la probabilidad de ceros, y luego podría eliminar todos los ceros, y luego ajustar una regresión regular usando mi elección de distribución (poisson por ejemplo)

Tienes toda la razón. Esta es una forma de ajustar un modelo de inflación cero (o, como señala Achim Zeileis en los comentarios, se trata estrictamente de un "modelo de obstáculos", que podría considerarse un caso especial de modelo de inflación cero).

La diferencia entre el procedimiento que has descrito y un modelo "todo en uno" con inflación cero es la propagación del error. Al igual que todos los demás procedimientos de dos pasos en estadística, la incertidumbre global de sus predicciones en el paso 2 no tendrá en cuenta la incertidumbre sobre si la predicción debe ser 0 o no.

A veces es un mal necesario. Afortunadamente, en este caso no es necesario. En R, puede utilizar pscl::hurdle() o fitdistrplus::fitdist() .

15voto

Daniel Lew Puntos 39063

La idea básica que describes es un planteamiento válido y suele denominarse modelo de vallas (o modelo en dos partes) en lugar de un modelo de inflación cero .

Sin embargo, es fundamental que el modelo para los datos distintos de cero tenga en cuenta la eliminación de los ceros. Si se ajusta un modelo de Poisson a los datos sin ceros, es casi seguro que el ajuste será deficiente, ya que la distribución de Poisson siempre tiene una probabilidad positiva para el cero. La alternativa natural es utilizar una distribución de Poisson truncada por cero, que es el enfoque clásico de la regresión hurdle para datos de recuento.

La principal diferencia entre los modelos de inflación cero y los modelos de umbral es qué probabilidad se modela en la parte binaria de la regresión. En el caso de los modelos de umbral, se trata simplemente de la probabilidad de cero frente a la de distinto de cero. En los modelos de inflación por cero es la probabilidad de tener un exceso cero es decir, la probabilidad de un cero que no está causado por la distribución no inflada (por ejemplo, Poisson).

Para una discusión de los modelos de obstáculo y de inflación cero para datos de recuento en R, véase nuestro manuscrito publicado en JSS y también enviado como viñeta a la base de datos pscl paquete: http://dx.doi.org/10.18637/jss.v027.i08

9voto

gpvos Puntos 103

Lo que ha dicho ssdecontrol es muy correcto. Pero me gustaría añadir algunos centavos a la discusión.

Acabo de ver el conferencia sobre Zero Inflated models for count data por Richard McElreath en YouTube.

Tiene sentido estimar p controlando las variables que explican la tasa del modelo de Poisson puro, sobre todo si se tiene en cuenta que la probabilidad de que un cero observado proceda de la distribución de Poisson no es del 100%.

Zero inflated distributions as a multilevel model

También tiene sentido cuando consideras los parámetros del modelo, ya que acabas con dos variables a estimar, p y la tasa del modelo de Poisson, y dos ecuaciones, el caso cuando el recuento es cero y el caso cuando el recuento es diferente de cero.

Fuente de la imagen : Statistical Rethinking - A Bayesian Course with Examples in R and Stan por Richard McElreath

Editar : errata

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X