Tengo una comprensión razonable de por qué la multicolinealidad es un problema es los modelos de regresión, junto con la líneas de este excelente puesto.
Para resumir lo que entiendo, para un modelo de regresión de $y = \alpha + \beta_1x + \beta_2z$ (donde $x$ y $z$ están correlacionadas), las estimaciones del coeficiente beta (además de ser inestables) son difíciles de interpretar, ya que una situación en la que podría aumentar $z$ sin aumentar $x$ es poco probable que ocurra, y no está respaldado por los datos.
Tengo entendido que la multicolinealidad es menos perjudicial para la predictivo a diferencia de los modelos explicativos o descriptivos.
Me interesa otra interpretación:
Si decidiera aumentar $z$ y que $x$ variar a su antojo en la reacción, ¿qué vería pasar a $y$ , teniendo en cuenta el hecho de que $x$ es probable que se mueva con $z$ ¿Y también tiene su propio efecto?
En otras palabras, aceptando la interpretación causal que $x$ y $z$ ambos causan $y$ y están a su vez correlacionadas hasta cierto punto (.7 digamos), ¿cómo se moverían las tres variables si $z$ se incrementa (linealmente) en alguna cantidad?
He intentado modelar este tipo de cosas antes, ajustando $y = \alpha + \beta_1x + \beta_2z$ (modelo 1), y $x = \alpha + \beta_1z$ (modelo 2). El aumento hipotético $z$ y los valores resultantes $x$ se predicen con el modelo 2. El hipotético $x$ y $z$ se utilizan para predecir $y$ utilizando el modelo 1. Sin embargo, esto parece muy insatisfactorio, ya que se requieren simulaciones complicadas para captar la incertidumbre (he utilizado sim
en arm
). Además, mi instinto me dice que, aparte de ser dolorosamente poco elegante, es una mala idea por otras razones que no puedo precisar.
- ¿Es posible esa interpretación "observacional"/condicional-cuando-lo-siento?
- ¿Alguien conoce un método mejor para esta interpretación?
- ¿Alguien puede recomendar un papel o
R
paquete en este sentido? - ¿Es válido el lío multimodelo anterior?
Soy consciente de que un modelo en la línea de $y = \alpha + \beta_1z$ daría una respuesta similar al lío de dos etapas anterior, pero perdería información en $x$ .
Entiendo que estas ideas son similares a la modelización de ecuaciones estructurales, pero aparte de tener escasos conocimientos de SEM, todavía no he encontrado un R
que permite ampliar de forma flexible estos modelos con diferentes funciones de enlace para modelos de probabilidades proporcionales, etc.