He leído que utilizar R-cuadrado para series temporales no es apropiado porque en un contexto de series temporales (sé que hay otros contextos) R-cuadrado ya no es único. ¿A qué se debe esto? He intentado buscar información al respecto, pero no he encontrado nada. Normalmente no le doy mucho valor a R-cuadrado (o R-cuadrado ajustado) cuando evalúo mis modelos, pero muchos de mis colegas (es decir, licenciados en empresariales) están absolutamente enamorados de R-cuadrado y quiero poder explicarles por qué R-cuadrado no es apropiado en el contexto de las series temporales.
Respuestas
¿Demasiados anuncios?Algunos aspectos de la cuestión:
Si alguien nos da un vector de números $\mathbf y$ y una matriz conformable de números $\mathbf X$ no necesitamos saber cuál es la relación entre ellos para ejecutar alguna álgebra de estimación, tratando $y$ como variable dependiente. El álgebra resultante será independiente de si estos números representan datos transversales, de series temporales o de panel, o de si la matriz $\mathbf X$ contiene valores retardados de $y$ etc.
La definición fundamental del coeficiente de determinación $R^2$ es
$$R^2 = 1 - \frac {SS_{res}}{SS_{tot}}$$
donde $SS_{res}$ es la suma de los residuos al cuadrado de algún procedimiento de estimación, y $SS_{tot}$ es la suma de las desviaciones al cuadrado de la variable dependiente con respecto a su media muestral.
Combinando, el $R^2$ siempre se calculará de forma única, para una muestra de datos específica, una formulación específica de la relación entre las variables y un procedimiento de estimación específico, sujeto únicamente a la condición de que el procedimiento de estimación sea tal que proporcione estimaciones puntuales de las cantidades desconocidas implicadas (y, por tanto, estimaciones puntuales de la variable dependiente y, por tanto, estimaciones puntuales de los residuos). Si cambia alguno de estos tres aspectos, el valor aritmético de $R^2$ pero esto es válido para cualquier tipo de datos, no sólo para las series temporales.
Así que la cuestión con $R^2$ y series temporales, no es si es "único" o no (ya que la mayoría de los procedimientos de estimación para datos de series temporales proporcionan estimaciones puntuales). La cuestión es si el marco "habitual" de especificación de series temporales es técnicamente amigable para la $R^2$ y si $R^2$ proporciona información útil.
La interpretación de $R^2$ como "proporción de la varianza de la variable dependiente explicada" depende fundamentalmente de que los residuos sumen cero. En el contexto de la regresión lineal (sobre cualquier tipo de datos) y de la estimación por mínimos cuadrados ordinarios, esto sólo se garantiza si la especificación incluye un término constante en la matriz regresora (una "deriva" en terminología de series temporales). En los modelos autorregresivos de series temporales, en muchos casos no se incluye una deriva.
En términos más generales, cuando nos enfrentamos a datos de series temporales, "automáticamente" empezamos a pensar en cómo evolucionará la serie temporal en el futuro. Así que tendemos a evaluar un modelo de series temporales basándonos más en lo bien que predice valores futuros que lo bien que se ajusta a valores anteriores . Pero el $R^2$ refleja principalmente lo segundo, no lo primero. El hecho bien conocido de que $R^2$ es no decreciente en el número de regresores significa que podemos obtener un ajuste perfecto añadiendo regresores ( cualquier regresores, es decir, cualquier serie' de cifras, tal vez totalmente desvinculadas conceptualmente de la variable dependiente). La experiencia demuestra que un ajuste perfecto obtenido de este modo también dará abismal predicciones fuera de la muestra.
Intuitivamente, este compromiso, quizá contraintuitivo, se produce porque al capturar toda la variabilidad de la variable dependiente en una ecuación estimada, convertimos la variabilidad asistemática en sistemática, en lo que respecta a la predicción (aquí, "asistemática" debe entenderse en relación con nuestro conocimiento -desde un punto de vista filosófico puramente determinista, no existe la "variabilidad asistemática". Pero en la medida en que nuestros limitados conocimientos nos obligan a tratar cierta variabilidad como "asistemática", el intento de convertirla en un componente sistemático conlleva el desastre de la predicción).
De hecho, ésta es quizá la forma más convincente de demostrar a alguien por qué $R^2$ no debería ser la principal herramienta de diagnóstico/evaluación cuando se trata de series temporales: aumente el número de regresores hasta un punto en el que $R^2\approx 1$ . A continuación, tome la ecuación estimada e intente predecir los valores futuros de la variable dependiente.
Algunos comentarios adicionales al post anterior. Cuando se trata de series temporales, una R al cuadrado (o R^2 ajustada) siempre sería mayor si las variables explicativas no estuvieran diferenciadas. Sin embargo, cuando se trata de un ajuste fuera del tiempo, el término de error sería significativamente mayor para las series temporales no diferenciadas. Esto sucede debido a las tendencias que presentan los datos y a una cuestión generalmente conocida. Pero es una buena forma de mostrar por qué esta medida debería ser probablemente la última de la lista a la hora de elegir el modelo de series temporales más adecuado.