8 votos

Regresión de Poisson positiva: ¿cuál es el efecto en el modelo del desplazamiento frente al truncamiento?

Supongamos que se quiere modelar cuántas veces ha tenido que hacer alguien un determinado examen antes de aprobarlo (en función de una serie de predictores como la práctica, los simulacros de examen realizados, las clases asistidas, etc.). Supongamos también que la mayoría de las personas aprueban tras el primer intento, pero que otras tienen que hacer el examen varias veces, y que la distribución parece de Poisson.

Si quisiera modelar la variable dependiente como el número de pruebas realizadas, su recuento mínimo sería 1. Por otro lado, si quisieras modelar la variable dependiente como el número de repeticiones necesarias, el recuento mínimo sería 0. Ambas me parecen razonables, y la segunda es sólo la primera menos 1, es decir, está desplazada.

También parece, conceptualmente como esta diferencia (tests~x1+x2+x3... vs. resits~x1+x2+x3... o tests-1~x1+x2+x3...) no debería afectar realmente a sus conclusiones finales: si la práctica disminuye el número de tests, también debería disminuir el número de resits, y parece que debería hacerlo en una medida similar.

Mis preguntas son:

  1. ¿Cuál es el efecto práctico sobre los parámetros del modelo de utilizar (a) la variable dependiente desplazada (resits) en lugar de (b) la no desplazada (tests)? Por ejemplo, ¿se esperaría en general que el parámetro estuviera sobreestimado si se utilizan resits, o subestimado? En cualquiera de los dos casos, ¿se esperaría en general que la diferencia fuera sustancial o menor? ¿O todo esto depende tanto del conjunto de datos concreto que no hay forma de saberlo? Es decir, ¿la similitud conceptual entre los tests y los resits es engañosa, en la medida en que me hace pensar que debería obtener similar resultados para ambos.

  2. ¿Cuál es el efecto práctico sobre los parámetros del modelo de utilizar:
    (a) un modelo de truncamiento cero - por ejemplo, en R, especificaría:
    vglm(tests~x, data, family=pospoisson()) y
    (b) un modelo desplazado a la izquierda - por ejemplo, en R, glm(resits~x, family=poisson) ?

Hay un debate sobre el desplazamiento frente al truncamiento aquí pero esta discusión no aborda específicamente cosas como los parámetros del modelo y la significación. También se centra en el desplazamiento a la derecha en lugar de a la izquierda.

He probado las distintas opciones anteriores con mis datos y ha resultado que el Poisson básico (y~x, fam=poisson) tenía una estimación más baja para el predictor que el truncado por cero (y~x, fam=pospoisson) que a su vez tenía una estimación más baja que el modelo desplazado a la izquierda (y-1~x, fam=poisson) . Sin embargo, los intervalos de confianza de la prueba de arranque sugieren que estas diferencias no son significativas. Sin embargo, hacer esto no me ha dicho si puedo esperar que esto se mantenga en general, es decir, si la similitud conceptual entre las pruebas y los resits debería traducirse típicamente en modelos similares. En mi caso, el desplazamiento a la izquierda dio lugar a un parámetro más alto que el modelo de truncamiento cero, pero ¿es así en general? En mi caso, los parámetros no eran significativamente diferentes, pero ¿es ese el caso en general? Me doy cuenta de que alguien podría ser capaz de derivar una respuesta a todo esto a partir de los primeros principios, matemáticamente, pero no tengo la formación matemática para hacerlo.

Lo pregunto como preludio a otra pregunta, aquí . Por razones que explicaré en ese post, yo tienen para desplazar a la izquierda mi variable de respuesta y quiero saber si esto es en principio problemático (en cuyo caso he tenido la suerte de que los parámetros del modelo sean bastante similares).

*Editar: Mis datos no están en forma de recuentos de exámenes frente a recuentos de resitencias. Sólo los utilizo como ilustración porque la similitud conceptual entre los tests y los resits es bastante obvia. Así que mi pregunta no es sobre qué regresión debería usar alguien para tales variables, sino que es más bien sobre cuál es el efecto de desplazar vs truncar en los parámetros del modelo - ¿se esperaría una diferencia trivial, una diferencia significativa, o no hay manera de saberlo sin datos? Sin embargo, ya que la gente sugirió binomios negativos más abajo, estoy feliz de aceptar respuestas a esta pregunta sobre los modelos de Poisson o binomios negativos.

0 votos

Mi primer pensamiento con datos que son esencialmente "número de fracasos hasta el primer éxito" sería utilizar la binomial negativa (si las probabilidades de éxito fueran constantes y los ensayos independientes sería geométrico pero la heterogeneidad podría modelarse adecuadamente como binomial negativa)

6voto

Sean Hanley Puntos 2428

A pesar de que son el modelado de cuenta, sus datos no pueden ser de Poisson. La forma sencilla de ver esto es debido a que no puede ser $0$, que es un valor posible para la distribución de Poisson. Pero esta no es realmente una desplazado o trunca de Poisson. Ni tampoco el número de resits ser de Poisson. Lo que se llama "el número de resits" igual podría ser llamado "el número de fallos hasta que $r$ éxitos". Esa es la definición de una binomial negativa. En su caso, $r=1$.

En resumen, me gustaría modelo "el número de resits" utilizando un modelo de regresión con una distribución binomial negativa. Normalmente con un modelo de regresión, los valores de predicción debe ser el valor esperado en cada punto de la covariable espacio. Tenga en cuenta que el valor esperado de una binomial negativa es:
$$ E[Y] = \frac{(1-p)r}{p} $$ donde $p$ es la probabilidad de éxito. Desde $r=1$, los valores pronosticados son las probabilidades de fallar una prueba. Usted podría convertir en la probabilidad de pasar de una prueba a través de $1-(\hat y / (1+\hat y))$.

Es un poco más complicado que eso, en la práctica, por desgracia. En primer lugar, como usted probablemente sabe, los modelos que utilizan algo distinto de la normalidad de la distribución de la respuesta (por ejemplo, la binomial negativa), la necesidad de utilizar una función de enlace. Así que para llegar a lo que estoy llamando $\hat y$, deberá exponentiate los valores calculados a partir de la ecuación del modelo.

Siguiente, "usando una distribución binomial negativa' suena como usted necesita de regresión binomial negativa. En realidad, es un poco diferente de los animales a partir de lo que tenemos aquí. Binomial negativa de regresión estimados, no sólo los coeficientes de regresión, sino también un parámetro de dispersión. Sabemos que el parámetro adecuado valor de su caso a-priori. Lo que usted necesita es llamado el modelo geométrico.

Tenga en cuenta también que hay diferentes maneras de especificar y parametrización de estas cosas, entonces usted necesita para leer la documentación de mucho cuidado. Puedo caminar a través de un ejemplo simple del uso de R. Vamos a comparar a la gente que no tuvo una preparación de clase, x = 0, a los que lo hicieron, x = 1. Vamos a imaginar que aquellos que no tomaron una preparación de clase tiene sólo un 30% de posibilidades de pasar, pero los que sí tienen una probabilidad del 70%.

library(MASS)   # you need this library for the negative.binomial() function below
set.seed(1082)  # this makes the example exactly reproducible
y = c(rnbinom(1000, size=1, prob=.3),   # number of resits for those who didn't 
      rnbinom(1000, size=1, prob=.7) )  #   or did take prep class
x = rep(c(0,1), each=1000)              # prep class indicator
m = glm(y~x, family=negative.binomial(theta=1))
summary(m)
# Call:
# glm(formula = y ~ x, family = negative.binomial(theta = 1))
# 
# Deviance Residuals: 
#     Min       1Q   Median       3Q      Max  
# -1.5805  -0.8358  -0.6336   0.4447   3.3044  
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  0.91108    0.03883   23.46   <2e-16 ***
# x           -1.78335    0.07180  -24.84   <2e-16 ***
# ---
# Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
# 
# (Dispersion parameter for Negative Binomial(1) family taken to be 1.075368)
# 
#     Null deviance: 2646  on 1999  degrees of freedom
# Residual deviance: 1913  on 1998  degrees of freedom
# AIC: 5902.8
# 
# Number of Fisher Scoring iterations: 4
cm = c(coef(m)[1], sum(coef(m)) )
1 - ( exp(cm)/(1 + exp(cm)) )  # the model's estimated probabilities of passing the test
# (Intercept)             
#   0.2867795   0.7052186 

0 votos

Gracias por tomarte el tiempo de dar una respuesta tan detallada. Mis datos no son en realidad sobre los exámenes frente a los resúmenes; simplemente los elegí como ilustración, ya que quería saber especialmente el efecto del cambio, y puesto que estas variables son conceptualmente muy similares y fáciles de explicar sin tener que hacer esta larga pregunta aún más larga. Mis datos (que explico con un poco más de detalle en el enlace proporcionado en el último párrafo) implican el número de personas que responden con una palabra dada cuando se les da una determinada pista, y estoy luchando para conceptualizar que en términos de fallos a 1 éxito.

0 votos

@Justin, mi conjetura de su descripción allí es que usted quiere hacer I binomial estilo de regresión logística de cómo muchos de los otros personas eligieron la misma palabra.

2voto

Aksakal Puntos 11351

Hay que utilizar la distribución que explica el fenómeno. A veces, una simple reformulación puede servir para pensar de forma diferente. Por ejemplo, en lugar de formular la pregunta como "¿cuántos intentos para aprobar?", la enmarcas como "¿cuántas repeticiones?".

Verá, en su caso es imposible tener una observación de una variable "número de intentos" menor que 1. Por lo tanto, Poisson simplemente no es un buen ajuste. Sin embargo, si usted formula la pregunta como yo lo hice, sus observaciones de la variable "número de reintentos" incluyen 0, y Poisson podría ser una distribución razonable a considerar.

No estás truncando nada ni desplazando, estás respondiendo a una pregunta diferente sobre una variable diferente, es decir, un "número de repeticiones" no intentos como en la pregunta original.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X