Tengo 5 predictores en un modelo de regresión múltiple con tamaños de muestra que van de 157 a 330 para cada predictor. Dada la variación del tamaño de la muestra, ¿es mejor utilizar el valor R-cuadrado ajustado en lugar del valor R-cuadrado?
Respuestas
¿Demasiados anuncios?$R^2$ mide la bondad del ajuste. Pero no detectará el sobreajuste porque aumentará con cualquier nuevo predictor (a menos que ya haya llegado a 1). Dado que el ajuste $R^2$ puede disminuir puede mostrar que algunos modelos se ajustan demasiado a los datos. Creo que otros criterios como el AIC y el BIC, que también hacen esto, pueden funcionar mejor. Así que si el propósito es medir la bondad del ajuste $R^2$ es apropiado y expresa el porcentaje de la varianza explicada por el modelo. Si el propósito es identificar si el modelo se ajusta en exceso a los datos o no, se ajusta $R^2$ es más apropiado. El tamaño de la muestra entra sólo porque cuando el número de parámetros es grande y el tamaño de la muestra es pequeño, el grado de sobreajuste será más grave que en las mismas circunstancias con un tamaño de muestra mucho mayor. En el caso de un tamaño de muestra mayor, los parámetros que deberían ser 0 se estimarán cerca de 0 y, por lo tanto, no perjudicarán la predicción tanto como en una muestra pequeña, donde el coeficiente podría ser inadecuadamente grande.