Me gustan las dos respuestas dadas hasta ahora. Permítanme añadir algunas cosas.
Otra opción es que también puedes combinar las variables. Esto se hace estandarizando ambas (es decir, convirtiéndolas en puntuaciones z), promediándolas, y luego ajustando su modelo sólo con la variable compuesta. Este sería un buen enfoque cuando se cree que son dos medidas diferentes del mismo constructo subyacente. En ese caso, tiene dos medidas que están contaminadas por el error. El valor verdadero más probable de la variable que realmente se encuentra entre ellos, por lo que al promediarlos se obtiene una estimación más precisa. Primero hay que estandarizarlas para ponerlas en la misma escala, de modo que las cuestiones nominales no contaminen el resultado (por ejemplo, no querrás promediar varias mediciones de temperatura si algunas son Fahrenheit y otras Celsius). Por supuesto, si ya están en la misma escala (por ejemplo, varias encuestas de opinión pública altamente correlacionadas), puede saltarse ese paso. Si crees que una de las variables puede ser más precisa que la otra, puedes hacer una media ponderada (quizás utilizando los recíprocos de los errores de medición).
Si las variables son diferentes medidas del mismo constructo y están lo suficientemente correlacionadas, se puede descartar una de ellas sin perder mucha información. Por ejemplo, una vez me encontré en una situación en la que quería utilizar una covariable para absorber parte de la varianza del error y aumentar la potencia, pero no me importaba esa covariable, ya que no era importante. Tenía varias opciones disponibles y todas estaban correlacionadas entre sí r>.98 . Básicamente elegí uno al azar y seguí adelante, y funcionó bien. Sospecho que habría perdido poder quemar dos grados de libertad extra si hubiera incluido los otros también utilizando alguna otra estrategia. Por supuesto, yo podría los han combinado, pero ¿para qué molestarse? Sin embargo, esto depende críticamente del hecho de que sus variables estén correlacionadas porque son dos versiones diferentes de la misma cosa; si hay una razón diferente por la que están correlacionadas, esto podría ser totalmente inapropiado.
Como eso implica, le sugiero que piense en lo que hay detrás de sus variables correlacionadas. Es decir, necesitas una teoría de por qué están tan altamente correlacionadas como para hacer el mejor trabajo de elegir qué estrategia usar. Además de diferentes medidas de la misma variable latente, otras posibilidades son una cadena causal (es decir X1→X2→Y ) y situaciones más complicadas en las que sus variables son el resultado de múltiples fuerzas causales, algunas de las cuales son las mismas para ambos. Quizás el caso más extremo es el de una variable supresora, que @whuber describe en su comentario más abajo. La sugerencia de @Macro, por ejemplo, supone que usted está interesado principalmente en X y se preguntan por el adicional contribución de Z después de tras haber contabilizado X de la contribución. Por lo tanto, pensar en por qué sus variables están correlacionadas y lo que quiere saber le ayudará a decidir cuál (es decir, x1 o x2 ) debe tratarse como X y que Z . La clave es utilizar visión teórica para informar de su elección.
Estoy de acuerdo en que la regresión de cresta es posiblemente mejor, porque le permite utilizar las variables que había previsto originalmente y es probable que produzca betas que se acerquen mucho a sus valores verdaderos (aunque estarán sesgados; véase aquí o aquí para más información). Sin embargo, creo que también tiene dos posibles inconvenientes: Es más complicado (requiere más sofisticación estadística), y el modelo resultante es más difícil de interpretar, en mi opinión.
Deduzco que tal vez el enfoque definitivo sería ajustar un modelo de ecuaciones estructurales. Eso es porque te permitiría formular el conjunto exacto de relaciones que crees que son operativas, incluyendo las variables latentes. Sin embargo, no conozco el SEM lo suficientemente bien como para decir nada al respecto aquí, aparte de mencionar la posibilidad. (También sospecho que sería exagerado en la situación que describes con sólo dos covariables).