4 votos

La selección de variable más importante, en base a su p-valor vs parcial $R^2$

Estoy tratando de resolver un problema donde el objetivo es encontrar una asociación entre los niños de cortisol valores (y) en contra de su madre semanal de cortisol promedios (x1 a x6) y el género (z). Después de llevar a cabo el modelo de las estrategias de selección en R (todo subconjunto de regresión, la eliminación hacia atrás, etc.), los siguientes dos 'óptimo' de los modelos se encuentran:

y = a0 + a5*x5

y

y = a0 + a1*x1 + a3*x3 + a4*x4 + a5*x5 + a6*x6

Para el segundo modelo, he encontrado algo muy interesante:

  • x3: p-valor = 0.16, parcial $R^2$ = 37.1%
  • x5: valor-p = 0.04, parcial $R^2$ = 5.5%

(Vamos a pasar por alto otras variables, por ahora – sus p-valores y parcial $R^2$ valores fueron entre estas dos variables.)

[Nota: p-valor se refiere a la probabilidad / importancia de la variable no es igual a cero; parcial $R^2$ para el porcentaje de variación que no puede ser explicado en un modelo que no contiene la variable]

Ahora mi pregunta: ¿por Qué no veo x5 , siendo mucho más significativo para el modelo de x3, sin embargo, soltando x3 desde el modelo de la gota de mi $R^2$ valores de un montón (de alrededor de un 20% a aproximadamente el 5%), pero no tanto por x5? Es la razón por la colinealidad entre las variables en el modelo (que no existe)? O es algo más?

También, el objetivo final es encontrar la variable más importante que describe la respuesta. Elegiría x3 o x5 en este caso, y por qué? O puede una elección se hizo?

3voto

Eero Puntos 1612

Que dejar de lado un montón de detalles, que menciona la regresión paso a paso y otras cosas y vienen con 2 modelos, pero no nos dicen que los modelos de su parcial R-squareds y otras cosas que vienen.

Una cosa que usted está viendo es que algunos de los problemas que vienen desde automatizado modelo de procedimientos de selección. Pensar acerca de los supuestos que entran en el cálculo de los valores de p y la otra estadística que calcula. Resulta que los valores de p calculados después del paso a paso regresiones mayormente violan los supuestos y rápidamente se vuelven sin sentido. Muchos de los estadísticos también se están moviendo lejos de confiar en los valores de R cuadrado, parcial R-cuadrado tendría más problemas (y que varían ampliamente dependiendo de qué otros términos se ajustan).

Lo que es más importante que la comparación de los valores de p es averiguar cuál es la pregunta o preguntas que usted realmente desea contestar. Algunas de las preguntas que se responden mejor utilizando el modelo completo sin selección, otros por la comparación específica de modelos anidados en lugar de encontrar un dudoso "Mejor modelo". Si realmente queremos simplificar un modelo de la opinión de los expertos en estos días se inclina mucho más hacia penalizado métodos en lugar de la selección paso a paso. Mira regresión ridge, lazo, y elasticnet métodos.

También puede ser que desee para simular los datos de donde se conoce la "Verdad", a continuación, ejecute los diversos métodos en los datos simulados para ver cómo comparar las estimaciones para la generación de la verdad. Esto puede ayudar a la comprensión de lo que está pasando, lo que funciona bien, y la limitación de los métodos que son más respaldado por la tradición y la inercia que por ser el "mejor".

2voto

dan90266 Puntos 609

Como Greg y otros han dicho, selección de variables, se crea un host de problemas graves. Una forma de ver esto es que usted está pidiendo más de los datos que los datos son capaces de narrar. Existe una analogía entre los datos de la tortura y tortura humana. Con la tortura, los datos se diga nada de lo que usted quiere oír, o no la verdad. Esto es especialmente cierto con los predictores están correlacionados. Para mí, la mejor forma de exponer el problema es bootstrap las filas de los predictores con el fin de obtener los intervalos de confianza para las filas. Las Variables pueden ser clasificadas en una serie de métricas, incluyendo pares y parcial $R^2$. Consulte la Sección 5.4 de Folletos bajo http://biostat.mc.vanderbilt.edu/CourseBios330 . Usted verá en la mayoría de los conjuntos de datos que encuentro en que la importancia de muchos de los predictores es muy incierto - los datos sólo puede ser capaz de decirle a usted que el aparente ganador predictor no está entre los 5 peores predictores.

1voto

Loffen Puntos 163

Alejándome un poco de la mecánica de funcionamiento de la regresión, y mirando a la información de 'economía' aquí, veo muchas oportunidades perdidas en su acercamiento a los datos, JCB. Lo que es más importante, los modelos de discutir parecen ignorar la longitudinal de la estructura de los datos. (Las variables x1..x6 son secuenciados en el tiempo y agrupados por la madre.) También, el uso de promedios me da esperanza de que tal vez había diaria de medidas, pero arbitrariamente agrupados y promediado de semana sabio como una variable de un enfoque de reducción. Si por casualidad usted realmente no 6 y 7*6 medidas de cortisol por la madre, entonces usted tiene una oportunidad de aprender de algunos bastante rica en datos de series de tiempo que abarca el ciclo menstrual, y para formular y poner a prueba algunas señaló hipótesis científicas acerca de los mecanismos causales. ¿Cuál es la pregunta científica que motiva la búsqueda de una asociación?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X