4 votos

300.000 observaciones, resultados significativos pero r-cuadrado ajustado muy bajo

El modelo que tengo para la regresión está de acuerdo con la literatura. Tengo unas 300.000 observaciones y 25 variables dependientes. Cuando ejecuto la regresión OLS, el resultado muestra un par de variables significativas, lo cual es satisfactorio. Sin embargo, la r-cuadrado ajustada es muy baja: ¡¡¡0,000960!!! ¿ES ALARMANTE? Otros estimadores son:

S.E. of regression  0.027463
Sum squared resid   227.8050
Log likelihood          657295.4
F-statistic         11.61202
Prob(F-statistic)   0.000000
Mean dependent var  0.000960
S.D. dependent var  0.027475
Akaike info criterion  -4.351855
Schwarz criterion      -4.350941
Hannan-Quinn criter.   -4.351591
Durbin-Watson stat  1.271290

En función de la información facilitada anteriormente, ¿cuál sería su evaluación del modelo y de la regresión? Por favor, aconséjeme.

¡Muchas gracias!

4voto

James Puntos 21

¡Bienvenido a CV!

En $R^2$ de $0.00096$ significa que su modelo de regresión explica $0.096\%$ de la varianza de la variable de respuesta. Se trata de una cantidad extremadamente pequeña, por lo que significa que su modelo no explica bien la varianza de la variable de respuesta.

La razón por la que sigue obteniendo estimaciones significativas de los coeficientes es que el tamaño de su muestra es extremadamente grande. Piense en lo que significa la significación de un coeficiente: La estimación $\pm$ el error estándar multiplicado por cierta cantidad (en función del nivel de significación) no contiene cero. Si el tamaño de la muestra $n$ es muy grande, sus errores estándar serán casi $0$ porque el error típico es $\frac{s}{\sqrt{n}}$ . Por lo tanto, la significación tiene poco significado con grandes $n$ . Sus tamaños de efecto podrían ser extremadamente pequeños, pero aún así significativamente distintos de cero.

En todo caso, puede concluir que sus 25 variables no explican casi nada de la varianza de la respuesta. Quizá no exista una relación lineal entre ellas y el resultado, o quizá simplemente no estén relacionadas en absoluto con el resultado.

3voto

Phil Lawlor Puntos 341

La baja r-cuadrado ajustada sugiere que su modelo no tiene en cuenta mucha varianza en el resultado. Esto significa que las asociaciones entre los predictores y el resultado no son muy fuertes. Sin embargo, con una muestra tan grande, tiene suficiente poder estadístico para detectar incluso efectos pequeños. Esto lleva a casos como el suyo, en el que un modelo con un r-cuadrado pequeño tiene efectos estadísticamente significativos (incluso si estos efectos pueden ser demasiado pequeños para ser considerados significativos). Si le preocupa saber si los resultados de su modelo son coherentes con la bibliografía, puede comparar la fuerza de los efectos que observa con los que se han notificado en el pasado.

Puede encontrar más información sobre los valores p y los tamaños del efecto aquí:

Cumming, G. (2014). Las nuevas estadísticas: Por qué y Cómo. Psychological Science, 25(1), 7-29. https://doi.org/10.1177/0956797613504966

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X