Tengo dudas sobre cómo tratar mi variable de resultado y, en consecuencia, sobre qué análisis de regresión debo aplicar. Estoy trabajando con una variable de recuento, es decir, las veces que una persona dijo "no sé" en un total de 45 preguntas. La distribución está muy sesgada positivamente, con un elevado número de ceros. Y hay pruebas de una severa sobredispersión. Creo que esto se debe a que cuando uno dice "no sé" a una pregunta, es más probable que lo haga en las demás, porque todas son sobre el mismo tema. Así que las 45 "pruebas" no son independientes.
Podría recalcular a una proporción, y aplicar una regresión binomial extra (con número de ensayos=45) y los estimadores que obtengo son el logaritmo de la diferencia de probabilidad de puntuar 1 (=no sabe, DK) en una pregunta concreta (odds ratio).
O
Podría tratarlo como un recuento cuya distribución se aproximará a una distribución binomial extra negativa (porque la probabilidad media de decir "no sé" en un ensayo es baja, es decir, 0,05). Entonces los coeficientes de regresión me dan el logaritmo de la diferencia de veces que el encuestado dice "no sé" (tasa de incidencia).
Ahora mi pregunta es, ¿la regresión binomial negativa adicional corregirá mejor la sobredispersión que la regresión binomial adicional? Me parece que permito que la varianza sea aleatoria dos veces, una por la "binomial negativa en lugar de poisson" y otra por permitir un "parámetro extra" para estimar la variación. ¿O los dos métodos serán iguales, y puedo elegir libremente en función de la interpretación que prefiera (razón de probabilidades frente a razón de tasas de incidencia)?
Entiendo por la respuesta de Glen_b que para la distribución binomial negativa teórica la varianza aumenta más rápidamente que la media. ¿Cómo podría evaluar esto en mi distribución empírica, ya que sólo tengo una medida de la media y la varianza? ¿Debería comparar esto para diferentes grupos de encuestados, por ejemplo, hombres y mujeres, y comparar su aumento de la media y la varianza? ¿Realizar las pruebas GOF para Bin y Negbin me daría una respuesta concluyente?