4 votos

Juzgar la calidad de un modelo estadístico para un porcentaje

Tengo un conjunto de datos con múltiples predictores y una única variable de respuesta que es un porcentaje y, por tanto, está limitada entre 0 y 100. Lamentablemente, no puedo compartir el conjunto de datos. Lamentablemente, no puedo compartir el conjunto de datos. Me gustaría construir un modelo sencillo para la respuesta. Entonces intenté, quizás sin pensar, utilizar la regresión logística utilizando glm . R arroja el siguiente error:

    logistic_regression <- glm(y ~ x1 + x5 + x11 , data = df_red, family = binomial(link="logit"))
Error in eval(expr, envir, enclos) : 
  the values of y must be 0 <= y <= 1

Puede que el mensaje de error no sea exactamente ése porque tuve que traducirlo de mi idioma (¡nunca había visto que R lanzara errores en mi idioma!). Sin embargo, el concepto está ahí, y es correcto: mi $y\in[0,100]$ . Debo reescalarlo para que $y^*\in[0,1]$ . Entonces me sale

    logistic_regression <- glm(y/100 ~ x1 + x5 + x11 , data = df_red, family = binomial(link="logit"))
Warning message:
In eval(expr, envir, enclos) :
  #successes not integers in the glm binomial model!

Esta vez, no recibo un error sino una advertencia. Esto tiene sentido: después de todo, la variable de respuesta para la regresión logística debe ser una variable binaria, no continua. Por otra parte, el modelo se ejecuta. Mis preguntas:

  1. ¿Cómo puedo juzgar la calidad de este modelo? ¿Tiene sentido fijarse en los residuales frente a los ajustados, la distribución de los residuales, etc.? Me interesa sobre todo la predicción, es decir, las estimaciones puntuales y los intervalos de predicción para datos no observados. Un objetivo secundario sería la interpretación de los coeficientes: si aumento $x_1$ por 1 ceteris paribus , does $y$ ¿aumentar en una cantidad fija? ¿Una proporción fija? ¿Ninguna de las dos? El tercer objetivo es la inferencia sobre los coeficientes: Me importan más las estimaciones de incertidumbre para $\hat{y}$ pero si puedo disponer de intervalos de confianza para los coeficientes del modelo, también estaría bien.
  2. ¿Tiene algún sentido el modelo? ¿Debería hacer algo completamente distinto, como por ejemplo una regresión beta, o puedo utilizar algo más sencillo/más parecido a lo que hice?

3voto

GeoMatt22 Puntos 1290

Si sus datos (a predecir) son puras fracciones/porcentajes, entonces la regresión logística no es realmente apropiada.

El análogo continuo más cercano sería probablemente suponer que los datos son logit-normal . He hecho esto antes en situaciones similares y he obtenido resultados razonables (aunque mi enfoque "ad hoc" no era realmente riguroso desde el punto de vista estadístico).

En el marco del MLG, más riguroso desde el punto de vista estadístico, se podría seguir utilizando un logit función de enlace como en la regresión logística, pero la distribución (condicional) de los datos ya no será la de Bernoulli. Como insinúas en tu último punto, la regresión beta es probablemente el enfoque más común para predecir una fracción/porcentaje (es decir, se asume un Distribución Beta en lugar de logit-normal). Esto sería sin duda más apropiado que la regresión logística, y me imagino que debe ser sencillo en R (que yo no uso, por lo que YMMV ).

El segundo factor a tener en cuenta, como se menciona en los comentarios, es la posibilidad de utilizar los recuentos brutos en lugar de los porcentajes. Esto afectará a la incertidumbre relativa de los datos, por ejemplo $0.5=\frac{1}{2}=\frac{500}{1000}$ pero la segunda relación tiene mucha menos incertidumbre que la primera. Por tanto, si se pueden utilizar los recuentos brutos, es preferible utilizar este método.

Para datos de recuento de enteros, posibles distribuciones sería Binomial o Poisson. Para datos continuos de "recuento" (es decir, peso no negativo), una distribución Gamma podría ser apropiada. (Tenga en cuenta que la distribución Beta puede interpretarse como la fracción de mezcla para una mezcla binaria de dos componentes con distribución Gamma).

En el caso del recuento, puede modelizar los dos "componentes-recuentos" como variables principales, es decir, si $y=\frac{A}{A+B}$ entonces puede modelar $A[x]$ y $B[x]$ . O podría modelar $A$ y la "masa total" $C=A+B$ en función de las correlaciones relativas. Por ejemplo, si $C$ es relativamente constante, $B$ estará fuertemente correlacionada con $A$ Así que $C$ puede ser una segunda variable más adecuada, es decir, más independiente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X