77 votos

Hacer todas las interacciones que tienen sus términos en el modelo de regresión?

De hecho, estoy revisando un manuscrito donde los autores comparan 5-6 modelos de regresión logit con el AIC. Sin embargo, algunos de los modelos tienen los términos de interacción, sin incluir el individuo covariable términos. ¿Alguna vez sentido hacer esto?

Por ejemplo (no específico para los modelos logit):

M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)

Siempre he estado bajo la impresión de que si usted tiene el término de interacción X1*X2 usted también necesita X1 + X2. Por lo tanto, los modelos 1 y 2 estaría bien, pero los modelos de 3-5 sería problemático (aunque AIC es menor). Es esto correcto? Es una regla o más de una pauta? ¿Alguien tiene una buena referencia que explica el razonamiento detrás de esto? Sólo quiero asegurarme de no miscommunicate nada importante en la revisión.

Gracias por todos los pensamientos, Dan

43voto

Niall Puntos 51

La mayoría de las veces, esto es una mala idea - la razón principal es que ya no hace que el modelo invariante a cambios de ubicación. Por ejemplo, suponga que tiene un resultado de $y_i$ y dos predictores $x_i$ y $z_i$ y especificar el modelo:

$$ y_i = \beta_0 + \beta_1 x_{i} z_i + \varepsilon $$

Si usted fuera a centro de los predictores por sus medios, $x_i z_i$ se convierte en

$$ (x_i - \overline{x})(z_i - \overline{z}) = x_i z_i - x_{i} \overline{z} - z_{i} \overline{x} + \overline{x} \overline{z}$$

Así, se puede ver que los principales efectos han sido reintroducido en el modelo.

Le he dado un argumento heurístico aquí, pero esto presenta un problema práctico. Como se señaló en la Lejana(2005) en la página 114, un aditivo cambio en los cambios de escala el modelo de inferencia cuando los efectos principales son la izquierda de la modelo, mientras que esto no sucede cuando la parte inferior del orden de los términos se incluyen. Normalmente es indeseable tener cosas arbitrarias como una ubicación de cambio causa un cambio fundamental en la inferencia estadística (y por lo tanto las conclusiones de su investigación), como puede suceder cuando se incluyen los términos polinomiales o interacciones en un modelo sin el menor orden de los efectos.

Nota: puede haber circunstancias especiales donde usted sólo desea incluir la interacción, si el $x_i z_i$ tiene algo de particular significado sustantivo o si sólo observar el producto y no el individual de las variables $x_i, z_i$. Pero, en ese caso, uno puede pensar de la predictor $a_i = x_i z_i$ y continuar con el modelo de

$$ y_i = \alpha_0 + \alpha_1 a_i + \varepsilon_i $$

en lugar de pensar de $a_i$ como un término de interacción.

29voto

lomaxx Puntos 32540

Todas las respuestas hasta ahora parece faltar un punto muy básico: la forma funcional que usted elija debe ser lo suficientemente flexible como para capturar las características que son científicamente relevante. Modelos de 2-5 imponer cero los coeficientes en algunos términos sin justificación científica. E incluso si se justifica científicamente, Modelo 1 sigue siendo atractivo porque, como bien prueba para el cero de los coeficientes, en lugar de imponer.

La clave es la comprensión de lo que las restricciones que decir. La típica advertencia para evitar los Modelos de 3-5 es porque en la mayoría de las aplicaciones de los supuestos que se imponen son científicamente inverosímil. El modelo 3 se supone X2 sólo influye la pendiente dY/dX1, pero no el nivel. El modelo 4 se supone X1 sólo influye la pendiente dY/dX2, pero no el nivel. Y el Modelo de 5 supone ni el 1 ni X2 afecta el nivel, pero sólo dY/dX1 o dY/dX2. En la mayoría de las aplicaciones de estos supuestos es que no parece razonable. Modelo 2 también impone un coeficiente cero, pero todavía tiene un cierto mérito. Se da la mejor aproximación lineal a los datos, que en muchos casos se satisface el objetivo científico.

17voto

Sean Hanley Puntos 2428

+1 a @Macro. Permítanme poner de manifiesto lo que creo que es un punto de vista similar, que a la hora de tener los predictores categóricos. Mucho puede depender de cómo están codificados. Por ejemplo, la referencia de celda (aka, 'dummy') codificación de los usos 0 y 1, mientras que el efecto de la codificación de los usos -1, 0 y 1. Considere un caso simple con dos factores con dos niveles cada uno, luego $x_1x_2$ [0, 0, 0, 1] o [1, -1, -1, 1], dependiendo del esquema de codificación utilizado. Creo que es posible tener una situación en la que la interacción es "significativo" con un esquema de codificación, pero todos los términos son "significativos", utilizando el otro esquema. Esto implica que una significativa decisiones interpretativas estaría basada en la arbitraria decisión de codificación que, de hecho, su software se puede haber hecho para usted sin su conocimiento. Reconozco que este es un pequeño punto, pero es sólo una razón más por la que normalmente no es una buena idea para conservar sólo la interacción (y también de no seleccionar un subconjunto de los predictores basados en los valores de p, por supuesto).

11voto

Andrew Puntos 629

Puesto que usted está revisando un papel que podría sugerir que los autores discuten la cuestión de la jerarquía del modelo y justificar su salida de ella.

Aquí hay algunas referencias:

  1. Nelder JA. La selección de términos en la respuesta de los modelos de superficie-¿qué tan fuerte es el débil de la herencia principio? El Estadístico Americano. 1998;52:315-8. http://www.jstor.org/pss/2685433. Consultado el 10 de De junio de 2010.

  2. Peixoto JL. Jerárquica de selección de variables en modelos de regresión polinomial. El Estadístico Americano. 1987;41:311-3. http://www.jstor.org/pss/2684752. Consultado El 10 De Junio De 2010.

  3. Peixoto JL. Una propiedad de un bien formulado modelos de regresión polinomial. El Estadístico Americano. 1990;44:26-30. http://www.jstor.org/pss/2684952. Consultado El 10 De Junio De 2010.

Yo, en general, sigue la jerarquía, sino que salen en algunas situaciones. Por ejemplo, si se realiza una prueba de desgaste del neumático frente a millas, a diferentes velocidades, el modelo podría ser así:

profundidad = intercept + kilometraje + kilometraje*velocidad de

pero no tendría sentido físico para incluir un efecto principal de la velocidad, porque el neumático no sabe lo que la velocidad será cero millas.

(Por otro lado, puede que desee probar un efecto de velocidad porque podría indicar que el "break-in" efectos diferentes a diferentes velocidades. En el otro lado, una mejor forma para manejar la interrupción en obtener los datos a cero y a muy bajo kilometraje y, a continuación, prueba de la no-linealidad. Tenga en cuenta que eliminar el término de intersección puede ser considerado como un caso especial de la violación de la jerarquía.)

Yo también voy a reiterar lo que dijo alguien más arriba, porque es muy importante: Los autores deben asegurarse de que sepan si su software es el centrado de los datos. El modelo de neumático anterior se transforma físicamente sin sentido si el software reemplaza con el kilometraje (millaje - promedio de kilometraje).

El mismo tipo de cosas son relevantes en la industria farmacéutica estudios de estabilidad (mencionado tangencialmente en "la Estabilidad de los Modelos Secuencial de Almacenamiento", Emil M. Friedman y Sam C. Shum, AAPS PharmSciTech, Vol. 12, Nº 1, Marzo de 2011, DOI: 10.1208/s12249-010-9558-x).

6voto

ripper234 Puntos 39314

[tratando de responder a una parte de la pregunta original que parece dejado al descubierto en la mayoría de las respuestas: "debe AIC, como un modelo criterio de selección es de confianza?"]

AIC debe ser utilizado más como una guía, de una regla que debe ser tomado como evangelio.

La eficacia de la AIC (o BIC o similar 'simple' criterio para la selección de modelo) altamente depende del algoritmo de aprendizaje, y el problema.

Piénsalo de esta manera: el objetivo de la complejidad (número de factores) plazo en el AIC fórmula es simple: para evitar la selección de los modelos que más de ajuste. Pero la simplicidad de la AIC muy a menudo no se logra captar la complejidad real de que el problema en sí. Esta es la razón por la que existen otras técnicas prácticas para evitar la sobre-adaptación: por ejemplo, la validación cruzada o la adición de un plazo de regularización.

Cuando yo uso en línea SGD (estocástico de gradiente de la pendiente) para realizar la regresión lineal en un conjunto de datos con un gran número de entradas, me parece AIC a ser un terrible predictor de la calidad del modelo porque es excesivamente penaliza a los modelos complejos con un gran número de términos. Hay muchas situaciones de la vida real donde cada término tiene un efecto pequeño, pero juntos, un gran número de ellos da una fuerte evidencia estadística de un resultado. AIC y BIC modelo de selección de los criterios a rechazar estos modelos y prefieren las más simples, aunque los más complejos son superiores.

En la final, es la generalización de error (más o menos: de rendimiento de ejemplo) que cuenta. AIC puede dar alguna pista de la calidad del modelo en algunos relativamente simple de las situaciones. Sólo ten cuidado y recuerda que la vida real es más a menudo que no, más complejo que una simple fórmula.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X