Supongamos que se quiere modelar cuántas veces ha tenido que hacer alguien un determinado examen antes de aprobarlo (en función de una serie de predictores como la práctica, los simulacros de examen realizados, las clases asistidas, etc.). Supongamos también que la mayoría de las personas aprueban tras el primer intento, pero que otras tienen que hacer el examen varias veces, y que la distribución parece de Poisson.
Si quisiera modelar la variable dependiente como el número de pruebas realizadas, su recuento mínimo sería 1. Por otro lado, si quisieras modelar la variable dependiente como el número de repeticiones necesarias, el recuento mínimo sería 0. Ambas me parecen razonables, y la segunda es sólo la primera menos 1, es decir, está desplazada.
También parece, conceptualmente como esta diferencia (tests~x1+x2+x3... vs. resits~x1+x2+x3... o tests-1~x1+x2+x3...) no debería afectar realmente a sus conclusiones finales: si la práctica disminuye el número de tests, también debería disminuir el número de resits, y parece que debería hacerlo en una medida similar.
Mis preguntas son:
-
¿Cuál es el efecto práctico sobre los parámetros del modelo de utilizar (a) la variable dependiente desplazada (resits) en lugar de (b) la no desplazada (tests)? Por ejemplo, ¿se esperaría en general que el parámetro estuviera sobreestimado si se utilizan resits, o subestimado? En cualquiera de los dos casos, ¿se esperaría en general que la diferencia fuera sustancial o menor? ¿O todo esto depende tanto del conjunto de datos concreto que no hay forma de saberlo? Es decir, ¿la similitud conceptual entre los tests y los resits es engañosa, en la medida en que me hace pensar que debería obtener similar resultados para ambos.
-
¿Cuál es el efecto práctico sobre los parámetros del modelo de utilizar:
(a) un modelo de truncamiento cero - por ejemplo, en R, especificaría:
vglm(tests~x, data, family=pospoisson())
y
(b) un modelo desplazado a la izquierda - por ejemplo, en R,glm(resits~x, family=poisson)
?
Hay un debate sobre el desplazamiento frente al truncamiento aquí pero esta discusión no aborda específicamente cosas como los parámetros del modelo y la significación. También se centra en el desplazamiento a la derecha en lugar de a la izquierda.
He probado las distintas opciones anteriores con mis datos y ha resultado que el Poisson básico (y~x, fam=poisson)
tenía una estimación más baja para el predictor que el truncado por cero (y~x, fam=pospoisson)
que a su vez tenía una estimación más baja que el modelo desplazado a la izquierda (y-1~x, fam=poisson)
. Sin embargo, los intervalos de confianza de la prueba de arranque sugieren que estas diferencias no son significativas. Sin embargo, hacer esto no me ha dicho si puedo esperar que esto se mantenga en general, es decir, si la similitud conceptual entre las pruebas y los resits debería traducirse típicamente en modelos similares. En mi caso, el desplazamiento a la izquierda dio lugar a un parámetro más alto que el modelo de truncamiento cero, pero ¿es así en general? En mi caso, los parámetros no eran significativamente diferentes, pero ¿es ese el caso en general? Me doy cuenta de que alguien podría ser capaz de derivar una respuesta a todo esto a partir de los primeros principios, matemáticamente, pero no tengo la formación matemática para hacerlo.
Lo pregunto como preludio a otra pregunta, aquí . Por razones que explicaré en ese post, yo tienen para desplazar a la izquierda mi variable de respuesta y quiero saber si esto es en principio problemático (en cuyo caso he tenido la suerte de que los parámetros del modelo sean bastante similares).
*Editar: Mis datos no están en forma de recuentos de exámenes frente a recuentos de resitencias. Sólo los utilizo como ilustración porque la similitud conceptual entre los tests y los resits es bastante obvia. Así que mi pregunta no es sobre qué regresión debería usar alguien para tales variables, sino que es más bien sobre cuál es el efecto de desplazar vs truncar en los parámetros del modelo - ¿se esperaría una diferencia trivial, una diferencia significativa, o no hay manera de saberlo sin datos? Sin embargo, ya que la gente sugirió binomios negativos más abajo, estoy feliz de aceptar respuestas a esta pregunta sobre los modelos de Poisson o binomios negativos.
0 votos
Mi primer pensamiento con datos que son esencialmente "número de fracasos hasta el primer éxito" sería utilizar la binomial negativa (si las probabilidades de éxito fueran constantes y los ensayos independientes sería geométrico pero la heterogeneidad podría modelarse adecuadamente como binomial negativa)