20 votos

Cuando a la caída de un plazo de un modelo de regresión?

Podría alguien informar si el siguiente sentido:

Estoy tratando con un ordinario modelo lineal con 4 predictores. Yo estoy en dos mentes si a abandonar el menos significativo plazo. Es $p$-valor es un poco más de 0.05. He argumentado en favor de dejarla caer a lo largo de estas líneas: Multiplicar la estimación de este término (por ejemplo) el rango intercuartil de los datos de la muestra para esta variable, se le da un significado para el efecto clínico que mantener este término tiene en el modelo general. Debido a que este número es muy bajo, aproximadamente igual a la típica intra-día de la gama de valores que la variable puede tomar cuando se mide en un entorno clínico, la veo como algo que no es clínicamente significativa y por lo tanto podría ser bajado a dar un aire más parsimonioso modelo, aunque la caída se reduce el ajustado $R^2$ un poco.

19voto

dan90266 Puntos 609

Nunca he entendido el deseo de parsimonia. La búsqueda de la parsimonia destruye todos los aspectos de la inferencia estadística (sesgo de los coeficientes de regresión, los errores estándar, los intervalos de confianza, los valores de P). Una buena razón para mantener las variables es que este conserva la precisión de los intervalos de confianza y otras cantidades. Piénsalo de esta manera: no sólo se han desarrollado dos imparcial estimadores de la varianza residual en el ordinario de regresión múltiple: (1) la estimación de la pre-especificado (grande) de modelo, y (2) la estimación de un modelo reducido la sustitución generalizada de los grados de libertad (GDF) para que aparente (reducción) de regresión grados de libertad. GDF estará mucho más cerca del número de candidatos de los parámetros que el número final de "significativo" de los parámetros.

He aquí otra manera de pensar en ella. Suponga que usted estuviera haciendo un ANOVA para comparar 5 tratamientos, obteniendo un 4 d.f. F-test. Entonces, por alguna razón usted mira pares diferencias entre los tratamientos utilizando la prueba t y decidió combinar o eliminar algunos de los tratamientos (esto es lo mismo que hacer la selección paso a paso el uso de P, AIC, BIC, Cp en las 4 variables ficticias). La resultante F de la prueba con 1, 2, o 3 d.f. se han inflado el tipo de error. El original de la prueba F con 4 d.f. contenía un perfecto multiplicidad de ajuste.

18voto

Sven Puntos 51980

Estas respuestas acerca de la selección de las variables de todos asumimos que el costo de la observación de las variables es 0.

Y eso no es cierto.

Mientras que el problema de selección de variables para un modelo determinado puede o no puede implicar la selección, las implicaciones para el comportamiento futuro implica la selección.

Considerar el problema de la predicción de que la universidad liniero va a hacer mejor en la NFL. Eres un scout. Debe tener en cuenta que las cualidades de la actual linieros en la NFL son más predictivos de su éxito. Medir 500 cantidades, y comenzar la tarea de la selección de las cantidades que serán necesarios en el futuro.

¿Qué debe hacer? Debe conservar todos los 500? En caso de que algunos (signo astrológico, día de la semana nació en) ser eliminadas?

Esta es una pregunta importante, y no es académica. Hay un costo para la observación de los datos, y en el marco de costo-efectividad sugiere que algunas de las variables NO NECESITAN ser observados en el futuro, ya que su valor es bajo.

7voto

Zizzencs Puntos 1358

Hay al menos otros dos posibles razones para mantener a una variable: 1) afecta a los parámetros de OTRAS variables. 2) El hecho de que es pequeño es clínicamente muy interesante en sí mismo

A ver alrededor de 1, se puede ver en los valores de predicción para cada persona a partir de un modelo con y sin la variable en el modelo. Sugiero hacer un diagrama de dispersión de estos dos conjuntos de valores. Si no hay grandes diferencias, entonces ese es un argumento en contra de esta razón

Para 2, pensar acerca de por qué había de esta variable en la lista de posibles variables. Está basado en la teoría? Hizo otras investigaciones encontrar un gran tamaño del efecto?

7voto

El consejo más común en estos días es conseguir que el AIC de los dos modelos y tomar el uno con el menor AIC. Así que, si tu modelo tiene un AIC de -20 y el modelo sin el más débil predictor tiene un AIC > -20, a continuación, mantener el modelo completo. Algunos podrían argumentar que si la diferencia < 3 a mantener la más simple. Yo prefiero el asesoramiento que usted podría utilizar el BIC para romper los "lazos" cuando el AIC están a menos de 3 de cada uno de los otros.

Si usted está usando R, a continuación, el comando para obtener el AIC es... AIC.

Tengo un libro de texto en el modelado de aquí a los años 90, lo que sugiere que la caída de todos los de su predictores que no son importantes. Sin embargo, esto realmente significa que va a caer independiente de la complejidad del predictor agrega o resta de la modelo. También es sólo para ANOVA, donde el significado es acerca de la variabilidad se explica en lugar de la magnitud de la pendiente a la luz de lo que otras cosas se han explicado. El más moderno de los consejos de uso de AIC toma en cuenta estos factores. Hay todo tipo de motivos de la no-predictor significativo debe ser incluido aunque no significativo. Por ejemplo, puede haber problemas de correlación con otros predictores de él, puede ser relativamente simple predictor. Si desea que el consejo más simple que ir con el AIC y el uso de BIC para romper los lazos y el uso de una diferencia de 3 como de su ventana de la igualdad. De lo contrario, ofrecen muchos más detalles sobre el modelo y usted puede obtener más consejos específicos para su situación.

5voto

georg Puntos 1742

Cuáles son usted que el uso de este modelo? Es la parsimonia un objetivo importante?

Más parsimonioso modelos son los preferidos en algunas situaciones, pero yo no diría que la parsimonia es una cosa buena en sí misma. Parsimonioso modelos pueden entenderse y comunicarse más fácilmente, y la parsimonia puede ayudar a protegerse contra el ajuste, pero muchas veces estos problemas no son de mayor preocupación puede ser abordado de otra manera.

Se aproxima desde la dirección opuesta, incluyendo un plazo adicional en una ecuación de regresión tiene algunos beneficios, incluso en situaciones en las que el plazo adicional sí no es de interés y que no mejora el ajuste del modelo mucho... usted no puede pensar que es una variable importante a controlar, pero otros pueden. Por supuesto, hay otros muy importantes sustantivo razones para excluir una variable, por ejemplo, podría ser causada por el resultado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X