7 votos

Forma correcta de comparar dos (muy) diferentes modelos de regresión?

Estoy trabajando con algunos tramos de modelos de regresión lineal, y me gustaría comparar sus predicciones con los producidos por múltiples (ponderado) de los modelos de regresión lineal. Ambos modelos describen el mismo sistema físico, pero tienen muy diferentes parametrizaciones de la variable independiente. Los dos diferentes parametrizaciones son tales que las medias de las variables independientes son muy diferentes, es decir, llamar a $x_1$ las variables independientes en virtud de la primera parametrización, y $x_2$ el ind. vars. en el segundo de la parametrización. En general, he a $\mathbb{E}x_1 \gg \mathbb{E}x_2$. Este (a su vez) significa que el modelo de coeficientes pueden ser muy diferentes.

Además, es a veces el caso de que los trozos de regresión lineal puede tener un segmento con pendiente = 0 y intercept = 0, lo que podría parecer a causa de un problema para un dato de CVRMSE.

La mejor manera que se me ocurre para comparar estos dos modelos es usar un entrenamiento y un conjunto de pruebas, pero luego, no estoy seguro de lo de la estadística que debo calcular a (algoritmos) de decir "esto es mejor". Hay una manera mejor para discriminar entre estos dos modelos en un a priori de la forma?

4voto

Gmaster Puntos 21

Ya que los dos modelos no anidados (es decir, las variables independientes de un modelo no son un subconjunto de las variables independientes del modelo de otros), no se puede utilizar un máximo de probabilidad de la prueba. Sin embargo, se puede considerar que el AIC (Akaike Information Criterion) o una de sus variantes. Si usted tiene probabilidades de los modelos, vamos a llamarlos $\mathcal{L}_1$$\mathcal{L}_2$, se puede calcular fácilmente la AIC de sus modelos con

$AIC_{1} = -2 \log(\mathcal{L}_1) + 2\cdot K_1$

donde $K_1$ es el número de estimable parámetros en el primer modelo. Ahora, un único valor de AIC no es de carácter informativo, o, más bien, es sólo informativo relativo a la alternativa de los modelos. Por lo tanto, a menudo, cuando se tienen varios modelos, uno calcula las diferencias de la Aic de los modelos en relación a la AIC del modelo con menor AIC:

$\Delta_i = AIC_i - AIC_{min} $

Ahora, usted no tendrá una prueba estadística para comparar estos valores. Esta es la teoría de la información enfoque, que es una cosa diferente de la Neyman-Pearson, la prueba de hipótesis marco, y los dos no debe ser mezclado (Anderson 2001). Sin embargo, hay algunas reglas de oro de lo que es la magnitud de un delta que se considera "significativo" (pero en el sentido habitual de la palabra, y no como en "estadísticamente significativo"). En "selección de Modelo y multimodel inferencia", Burnham y Anderson, presente la siguiente tabla:

Delta_i     Level of empirical support of model i
0-2          Substantial
4-7          Considerably less
> 10         Essentially none

Es decir, si la diferencia de AIC de los dos modelos es de 4 a 7, se puede asumir que uno de los modelo es "considerablemente" mejor apoyado por la evidencia de que la otra. De hecho, los autores afirman que

Parece que lo mejor es no asociar las palabras significativas o rechazada con los resultados bajo una teoría de la información paradigma. Las preguntas relativas a la fuerza de la evidencia para los modelos de la serie son la mejor forma de abordar el uso de la evidencia de relación, así como un análisis de los residuos, ajustado $R^2$ y otro modelo de diagnóstico o la estadística descriptiva.

Las variantes de la AIC incluir $AIC_c$ (o c-AIC), el cual es adecuado para tamaños de muestra pequeños, y QAIC (para overdispersed los datos de recuento).

Hay alternativas, por supuesto, que permiten que usted realmente hacer la prueba de hipótesis. Ver por ejemplo esta pregunta.

3voto

nkav Puntos 34

Puede ser interesante echar un vistazo a la Vuong de la prueba y la literatura posterior.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X