21 votos

¿Por qué mi R-cuadrado es tan bajo cuando mis t-estadísticos son tan grandes?

Hice una regresión con 4 variables, y todas son muy significativas estadísticamente, con valores T $\approx 7,9,26$ y $31$ (Digo $\approx$ porque parece irrelevante incluir los decimales) que son muy elevados y claramente significativos. Pero entonces el $R^2$ es sólo .2284. ¿Estoy malinterpretando los valores t para que signifiquen algo que no significan? Mi primera reacción al ver los valores t fue que el $R^2$ sería bastante alto, pero tal vez sea un alto $R^2$ ?

2 votos

Apuesto a que tu $n$ es moderadamente grande, ¿verdad?

0 votos

@Glen_b sí, alrededor de 6000.

12 votos

Entonces grande $t$ -que se asocian a pequeñas $R^2$ es totalmente anodina. Dado que los errores estándar disminuyen a medida que $1/\sqrt{n}$ , $t$ -aumentarán a medida que $\sqrt{n}$ mientras que $R^2$ tenderá a permanecer constante al aumentar $n$ . ¿Por qué te importa lo que el $R^2$ ¿es? ¿Por qué te importan los ratios t?

51voto

Grant Johnson Puntos 968

En $t$ -valores y $R^2$ se utilizan para juzgar cosas muy distintas. En $t$ -valores se utilizan para juzgar la exactitud de su estimación de la $\beta_i$ pero $R^2$ mide la cantidad de variación de la variable de respuesta explicada por las covariables. Supongamos que está estimando un modelo de regresión con $n$ observaciones,

$$ Y_i = \beta_0 + \beta_1X_{1i} + ...+ \beta_kX_{ki}+\epsilon_i $$

donde $\epsilon_i\overset{i.i.d}{\sim}N(0,\sigma^2)$ , $i=1,...,n$ .

Grande $t$ -(en valor absoluto) le llevan a rechazar la hipótesis nula de que $\beta_i=0$ . Esto significa que puede estar seguro de haber estimado correctamente el signo del coeficiente. Además, si $|t|$ >4 y tienes $n>5$ entonces 0 no está en un intervalo de confianza del 99% para el coeficiente. La dirección $t$ -valor de un coeficiente $\beta_i$ es la diferencia entre la estimación $\hat{\beta_i}$ y 0 normalizado por el error estándar $se\{\hat{\beta_i}\}$ .

$$ t=\frac{\hat{\beta_i}}{se\{\hat{\beta_i}\}} $$

que no es más que la estimación dividida por una medida de su variabilidad. Si se dispone de un conjunto de datos lo suficientemente amplio, siempre se obtendrán valores estadísticamente significativos (grandes). $t$ -valores. Esto no significa necesariamente que sus covariables expliquen gran parte de la variación de la variable de respuesta.

Como mencionó @Stat, $R^2$ mide la cantidad de variación de la variable de respuesta explicada por las variables dependientes. Para obtener más información sobre $R^2$ Ir a wikipedia . En su caso, parece que tiene un conjunto de datos lo suficientemente grande como para estimar con precisión la $\beta_i$ 's, pero sus covariables hacen un pobre trabajo de explicar y \or predecir los valores de respuesta.

1 votos

(+1) Desde el principio queda claro que se trata de una explicación bien meditada e informativa.

0 votos

Buena respuesta. Los términos "significación práctica" y "significación estadística" me resultan a menudo útiles para reflexionar sobre esta cuestión.

4 votos

También existe una transformación sencilla entre las dos estadísticas: $R^2=\frac{t^2}{t^2+df}$

10voto

generic_user Puntos 2269

Para decir lo mismo que caburke pero de forma más sencilla, usted confía mucho en que la respuesta media causada por sus variables no sea cero. Pero hay muchas otras cosas que no tienes en la regresión que hacen que la respuesta salte.

0voto

mel Puntos 1

¿Podría ser que, aunque los predictores tengan una tendencia lineal con respecto a la variable de respuesta (la pendiente es significativamente distinta de cero), lo que hace que los valores t sean significativos, el cuadrado R sea bajo porque los errores son grandes, lo que significa que la variabilidad de los datos es grande y, por tanto, el modelo de regresión no se ajusta bien (las predicciones no son tan precisas)?

Sólo mis dos centavos.

Quizás este post pueda ayudar: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p-values

0voto

KP. Puntos 8241

Varias de las respuestas dadas se aproximan pero siguen siendo erróneas.

"Los valores t se utilizan para juzgar la exactitud de su estimación de las i" es la que más me preocupa.

El valor T no es más que una indicación de la probabilidad de ocurrencia aleatoria. Grande significa poco probable. Pequeño significa muy probable. Positivo y negativo no importan para la interpretación de la probabilidad.

"R2 mide la cantidad de variación en su variable de respuesta explicada por sus covariables" es correcto.

(Hubiera comentado pero esta plataforma aún no me lo permite).

-4voto

katleho Puntos 1

La única manera de hacer frente a una pequeña R al cuadrado, compruebe lo siguiente:

  1. ¿El tamaño de la muestra es suficiente? En caso afirmativo, siga el paso 2. En caso negativo, aumente el tamaño de la muestra.

  2. ¿Cuántas covariables utilizó para la estimación del modelo? Si son más de 1, como en su caso, trate el problema de la multicolinealidad de las covariables o, simplemente, ejecute la regresión de nuevo y esta vez sin la constante, que se conoce como beta cero.

  3. Sin embargo, si el problema persiste, entonces haga una regresión por pasos y seleccione el modelo con una R al cuadrado alta. Pero que no te puedo recomendar porque trae sesgo en las covariables

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X