Tengo un conjunto de datos con múltiples predictores y una única variable de respuesta que es un porcentaje y, por tanto, está limitada entre 0 y 100. Lamentablemente, no puedo compartir el conjunto de datos. Lamentablemente, no puedo compartir el conjunto de datos. Me gustaría construir un modelo sencillo para la respuesta. Entonces intenté, quizás sin pensar, utilizar la regresión logística utilizando glm
. R arroja el siguiente error:
logistic_regression <- glm(y ~ x1 + x5 + x11 , data = df_red, family = binomial(link="logit"))
Error in eval(expr, envir, enclos) :
the values of y must be 0 <= y <= 1
Puede que el mensaje de error no sea exactamente ése porque tuve que traducirlo de mi idioma (¡nunca había visto que R lanzara errores en mi idioma!). Sin embargo, el concepto está ahí, y es correcto: mi $y\in[0,100]$ . Debo reescalarlo para que $y^*\in[0,1]$ . Entonces me sale
logistic_regression <- glm(y/100 ~ x1 + x5 + x11 , data = df_red, family = binomial(link="logit"))
Warning message:
In eval(expr, envir, enclos) :
#successes not integers in the glm binomial model!
Esta vez, no recibo un error sino una advertencia. Esto tiene sentido: después de todo, la variable de respuesta para la regresión logística debe ser una variable binaria, no continua. Por otra parte, el modelo se ejecuta. Mis preguntas:
- ¿Cómo puedo juzgar la calidad de este modelo? ¿Tiene sentido fijarse en los residuales frente a los ajustados, la distribución de los residuales, etc.? Me interesa sobre todo la predicción, es decir, las estimaciones puntuales y los intervalos de predicción para datos no observados. Un objetivo secundario sería la interpretación de los coeficientes: si aumento $x_1$ por 1 ceteris paribus , does $y$ ¿aumentar en una cantidad fija? ¿Una proporción fija? ¿Ninguna de las dos? El tercer objetivo es la inferencia sobre los coeficientes: Me importan más las estimaciones de incertidumbre para $\hat{y}$ pero si puedo disponer de intervalos de confianza para los coeficientes del modelo, también estaría bien.
- ¿Tiene algún sentido el modelo? ¿Debería hacer algo completamente distinto, como por ejemplo una regresión beta, o puedo utilizar algo más sencillo/más parecido a lo que hice?