14 votos

Cuando el AIC y el ajustado $R^2$ llevan a conclusiones diferentes

Espero que esté bien hacer preguntas teóricas sobre R aquí. R me ha dado los siguientes resultados de mi "torneo de modelos". Todos los modelos son completamente distintos excepto por 3 variables de control básicas. Para mí está claro que el Modelo 3 (tercera columna) es el que mejor funciona. Mi preocupación es que el Modelo 4 tiene tan bajo $R^2$ a pesar de tener un AIC bajo. ¿Cómo se explicaría teóricamente por qué un modelo tiene un AIC bajo pero también un $R^2$ ?

En segundo lugar, imaginemos que añadimos las variables del modelo 4 a cada uno de los otros modelos y observamos la reducción de las puntuaciones del AIC. Si la reducción del AIC es diferente en cada modelo, ¿qué sugiere esto?

¿Debería darse el caso de que las variables insertadas lo hagan mejor cuando se insertan en un modelo teórico muy diferente?

4 Models - Voting Behaviour

[Para información consulté este otro hilo pero decidí crear el mío propio ya que aún no tenía clara la distinción entre bondad de ajuste y poder explicativo]. El "mejor" modelo seleccionado con AICc tiene menor $R^2$ -cuadrado que el modelo completo/global

1 votos

Por favor, vea las siguientes respuestas mías, con suerte, para algunas ideas útiles: 1) bajo $R^2$ ; 2) sobre AIC/BIC y modelos promediados/combinados/ensamblados .

0 votos

¿Cuáles son las "conclusiones diferentes" que $R^2$ y AIC te llevan?

0 votos

Gracias Aleksandr, el enlace es útil aunque tendré que reflexionar un poco más sobre él. Glen_b - Me doy cuenta de que es una forma simplista de decirlo, pero en esencia lo que quiero decir es que la mayoría de mis modelos han tendido a tener un AIC y un R-2 inversamente relacionados. Sé que la bondad del ajuste y el poder explicativo a menudo van de la mano, pero en este caso claramente no es así. Simplificando, dada la nebulosidad del área (comportamiento electoral), el AIC sugiere un buen modelo. Pero el R-2 sugiere uno menos que satisfactorio. ¿Se trata de una interpretación falsa?

8voto

user39770 Puntos 9

$R^2$ y AIC están respondiendo a dos preguntas diferentes. Quiero que esto sea fácil y no matemático, así que mis afirmaciones no son matemáticas. $R^2$ es decir algo sobre lo bien que su modelo explica los datos observados. Si el modelo es de regresión y se utiliza la R^2 no ajustada, entonces esto es correcto a ojos vista.
El AIC, en cambio, trata de explicar lo bien que predice el modelo con los nuevos datos. Es decir, el AIC es una medida de lo bien que el modelo se ajustará a los nuevos datos, no a los datos existentes. Un AIC más bajo significa que un modelo debería mejorar la predicción.
Con frecuencia, añadir más variables disminuye la precisión de la predicción y, en ese caso, el modelo con mayor $R^2$ tendrá un AIC más alto (peor). Un buen ejemplo de esto se encuentra en "Introduction to Statistical Learning with R" en el capítulo sobre modelos de regresión, incluyendo el 'mejor subconjunto' y la regularización. Hacen un análisis bastante completo del conjunto de datos de los 'bateadores'. También se puede hacer un experimento mental. Imagínese que uno está tratando de predecir la salida sobre la base de algunas variables conocidas. Si se añaden variables de ruido al ajuste, aumentará la R^2, pero también disminuirá el poder de predicción del modelo. Así, el modelo con variables de ruido tendrá mayor $R^2$ y mayor AIC.

3voto

¿Cómo se explica que un modelo tenga un AIC bajo pero también un R2 bajo?

Esto se debe a que son medidas diferentes.

  • $R^2$ es una medida del error de formación.
  • $AIC$ es una estimación del error de la prueba que tiene en cuenta el sesgo y la varianza.

Recordemos las ecuaciones de ambos: $$ R^2 = 1 - RSS / TSS$$ $$ AIC = \frac{1}{n\hat{\sigma}^2}(RSS + 2d\hat{\sigma}^2)$$

* $d$ es el número de predictores en el modelo.

En una situación en la que un aumento del sesgo conduce a una disminución relativamente pequeña de la varianza, se puede ver que un modelo con un sesgo alto (valor bajo de $d$ ) podría tener una baja $AIC$ y baja $R^2$ en comparación con un modelo más complejo con bajo sesgo (alto valor de $d$ ) y un alto $R^2$ .


Si las reducciones del AIC son diferentes en cada modelo, ¿qué sugiere esto?

Esto sugiere que algunos predictores, o subconjuntos de predictores, reducen $RSS$ más que otros.


¿Debería darse el caso de que las variables insertadas lo hagan mejor cuando se insertan en un modelo diferente?

Tal vez. Podría haber colinealidad o multicolinealidad entre sus predictores.

Suponga que un predictor tiene una relación significativa con la respuesta. Supongamos también que tenemos 2 modelos: uno en el que existe colinealidad entre este predictor y los demás del modelo, y otro en el que no existe colinealidad entre este predictor y los demás.

Si se inserta el predictor en el primer modelo, el rendimiento será menor que si se inserta en el segundo modelo. Esto se debe a que los predictores colineales del primer modelo ya habrán "explicado" parte de la relación del predictor insertado con la respuesta.

2voto

Hoogendijk Puntos 45

Qué modelo es mejor es

1) no se ha elegido utilizando el AIC, ya que éste sólo compara las funciones de ajuste para el mismo conjunto de datos.

2) no se ha elegido utilizando $R^2$ ingenuamente. Por ejemplo, si se supone que dos variables no están correlacionadas, entonces la menor $R^2$ pertenece al mejor modelo.

3) $R^2$ sólo es adecuado utilizarlo (ajustado o no) si se cumplen las condiciones de MCO (mínimos cuadrados ordinarios) y/o máxima verosimilitud. En lugar de indicar cuáles son todas las condiciones de MCO, ya que hay múltiples conjuntos de reglas que dan lugar a condiciones de MCO, vamos a indicar cuáles no son, es decir, si tenemos valores atípicos lejanos muy no normales para la variable del eje x, y baja $R^2$ valores, el $R^2$ valor no vale el papel en el que está escrito. En ese caso, 3a) recortaríamos los valores atípicos o 3b) utilizaríamos $rs^2$ (Spearman's rank sum correlation), 3c) no utilizar OLS o máxima verosimilitud, sino utilizar la regresión MLR de Theil o una solución inversa del problema, y no intentar utilizar los valores r.

4) Se puede utilizar 4a) Chi-cuadrado de Pearson, 4b) prueba t para las categorías del histograma del eje x, o si es necesario debido a la no normalidad de los residuos: prueba de Wilcoxon unilateral, y 4c) también se puede probar lo compacto que es cada conjunto de residuos comparando las varianzas utilizando el método no paramétrico de Conover (en prácticamente todos los casos) o la prueba de Levene si la prueba de residuos de distribución normal es lo suficientemente buena. Del mismo modo se puede utilizar 4d) ANOVA con probabilidades parciales de la relevancia de cada parámetro de ajuste (bottoms up) Y simplificar los modelos incluyendo todos los parámetros disponibles y luego eliminar todos los parámetros innecesarios lanzando todo y eliminando los parámetros que probablemente no contribuyan (top-down). Se necesitan tanto los métodos descendentes como los ascendentes para decidir finalmente qué modelo es el "mejor", teniendo en cuenta que la estructura residual puede no ser muy adecuada para el uso de ANOVA y que los valores de nuestros parámetros estarán probablemente sesgados por el uso de OLS.

ANTES de crear cualquiera de los anteriores, deberíamos comprobar nuestras variables del eje x y del eje y y/o las combinaciones de parámetros para asegurarnos de que tenemos unas mediciones "bonitas". Es decir, deberíamos mirar los gráficos lineales frente a los lineales, los gráficos logarítmicos, los exponenciales-exponenciales, los recíprocos-reciprocales, los de raíz cuadrada y raíz cuadrada y todas las mezclas de los anteriores y otros: logarítmico-lineal, logarítmico-lineal, recíproco-exponencial, etc., para determinar cuál va a producir las condiciones más normales, el patrón residual más simétrico, los residuos más homocedásticos, etc., y luego sólo probar los modelos que tengan sentido en el contexto "bonito".

5) Cosas que he omitido o que no conozco.

0voto

nickvk Puntos 66

El AIC no tiene una "escala absoluta": para los modelos $m_i$ ajuste a partir de los datos $x$ el AIC del modelo sólo se calcula hasta una constante desconocida, es decir $\text{AIC}_i = \text{AIC}^{\text{true}}_{i} - C_x$ donde $C_x$ es una constante desconocida que depende de las observaciones $x$ . Desde $C_x$ es común entre los modelos ajustados al mismo conjunto de datos $x$ podemos usar simplemente $\Delta_{ij} = AIC_i - AIC_j = \text{AIC}^{\text{true}}_{i} - C_x - \text{AIC}^{\text{true}}_{j} + C_x = \text{AIC}^{\text{true}}_{i} - \text{AIC}^{\text{true}}_{j}$ para la comparación de modelos. Si se ajustan los modelos utilizando diferentes conjuntos de datos $x$ y $x'$ entonces tienes dos diferentes $C_{x_i}$ y $C_{x_j}$ para que las constantes no se cancelen y $\Delta_{ij} = \text{AIC}^{\text{true}}_{i} - C_{x_i} - \text{AIC}^{\text{true}}_{j} + C_{x_j}$ no tiene sentido.

Desde este punto de vista, podemos esperar que la $R^2_i$ y también baja $\text{AIC}_i$ cuando $C_{x_i}$ es lo suficientemente pequeño en relación con el otro $\text{AIC_j}$ y $C_{x_j}$ . Según creo, el $C_{x_i}$ son proporcionales a la probabilidad de las observaciones, que es un producto de las probabilidades de cada observación en sus datos; no creo que sea un accidente que su AIC más pequeño corresponda al menor número de observaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X