Estoy tratando de resolver un problema donde el objetivo es encontrar una asociación entre los niños de cortisol valores (y
) en contra de su madre semanal de cortisol promedios (x1
a x6
) y el género (z
). Después de llevar a cabo el modelo de las estrategias de selección en R (todo subconjunto de regresión, la eliminación hacia atrás, etc.), los siguientes dos 'óptimo' de los modelos se encuentran:
y = a0 + a5*x5
y
y = a0 + a1*x1 + a3*x3 + a4*x4 + a5*x5 + a6*x6
Para el segundo modelo, he encontrado algo muy interesante:
- x3: p-valor = 0.16, parcial $R^2$ = 37.1%
- x5: valor-p = 0.04, parcial $R^2$ = 5.5%
(Vamos a pasar por alto otras variables, por ahora – sus p-valores y parcial $R^2$ valores fueron entre estas dos variables.)
[Nota: p-valor se refiere a la probabilidad / importancia de la variable no es igual a cero; parcial $R^2$ para el porcentaje de variación que no puede ser explicado en un modelo que no contiene la variable]
Ahora mi pregunta: ¿por Qué no veo x5
, siendo mucho más significativo para el modelo de x3
, sin embargo, soltando x3
desde el modelo de la gota de mi $R^2$ valores de un montón (de alrededor de un 20% a aproximadamente el 5%), pero no tanto por x5
? Es la razón por la colinealidad entre las variables en el modelo (que no existe)? O es algo más?
También, el objetivo final es encontrar la variable más importante que describe la respuesta. Elegiría x3
o x5
en este caso, y por qué? O puede una elección se hizo?