14 votos

Métodos de predicción de múltiples variables dependientes

Tengo una situación en la que tengo $n$ observaciones, cada una con $p$ variables independientes y $q$ variables dependientes. Me gustaría construir un modelo o una serie de modelos para obtener predicciones de la $q$ variables dependientes para una nueva observación.

Una forma es construir múltiples modelos, cada uno de los cuales predice una única variable dependiente. Un enfoque alternativo es construir un único modelo para predecir todas las variables dependientes de una sola vez (regresión multivariante o PLS, etc.).

Mi pregunta es: ¿tener en cuenta múltiples VD simultáneamente conduce a un modelo más robusto/preciso/fiables? Dado el hecho de que algunos de los $q$ las variables dependientes pueden estar correlacionadas entre sí, ¿este hecho obstaculiza o ayuda a un enfoque de modelo único? ¿Existen referencias que pueda consultar sobre este tema?

3 votos

Mi experiencia es que el ajuste de las VD correlacionadas en un modelo puede obtener estimaciones más precisas que si se ajustan por separado. Es fácil distinguir la diferencia mediante simulaciones.

1 votos

Por lo que me enseñaron en la escuela, uno debe construir un modelo basado en el conocimiento teórico; eso evitaría que el analista pescara resultados que simplemente ocurren por casualidad (lo que ocurre mucho). Por lo tanto, le sugeriría que basara su modelo en algunas relaciones teóricas de la literatura y que luego lo ampliara a partir de ahí.

7voto

Sean Hanley Puntos 2428

Es necesario comprobar las correlaciones entre las variables dependientes ( editar: La respuesta de @BilalBarakat es correcta, lo importante aquí son los residuos ). Si todos o algunos son independientes, se pueden realizar análisis separados de cada uno. Si no son independientes, o los que no lo sean, puedes ejecutar un análisis multivariante. Esto maximizará su potencia mientras mantiene la tasa de error de tipo I en su nivel alfa.

Sin embargo, debe saber que esto no hará que su análisis sea más preciso/robusto. Se trata de una cuestión diferente a la de saber si su modelo predice los datos mejor que el modelo nulo. De hecho, con tantas cosas en marcha, a menos que tenga muchos datos, es probable que pueda obtener estimaciones de parámetros muy diferentes con una nueva muestra. Incluso es posible que el signo de una beta cambie. Mucho depende del tamaño de p y q y de la naturaleza de sus matrices de correlación, pero el volumen de datos necesario para la solidez puede ser enorme. Recuerda que, aunque mucha gente utiliza "significativo" y "fiable" como sinónimos, en realidad no lo son. Una cosa es saber que una variable no es independiente de otra, y otra totalmente distinta es especificar la naturaleza de esa relación en tu muestra tal y como es en la población. Puede ser fácil realizar un estudio dos veces y encontrar un predictor significativo ambas veces, pero con la estimación del parámetro lo suficientemente diferente como para ser teóricamente significativo.

Además, a menos que esté haciendo un modelo de ecuaciones estructurales, no puede incorporar muy bien sus conocimientos teóricos sobre las variables. Es decir, técnicas como el MANOVA tienden a ser crudamente empíricas.

Otro enfoque es utilizar lo que se sabe sobre el tema en cuestión. Por ejemplo, si tiene varias medidas diferentes del mismo constructo (podría comprobarlo con un análisis factorial), puede combinarlas. Esto puede hacerse convirtiéndolas en puntuaciones z y promediándolas. También podría utilizarse el conocimiento de otras fuentes de correlación (por ejemplo, la causa común o la mediación). Algunas personas se sienten incómodas al poner tanto peso en el conocimiento del dominio, y reconozco que se trata de una cuestión filosófica, pero creo que puede ser un error exigir que los análisis hagan todo el trabajo y asumir que es la mejor respuesta.

En cuanto a una referencia, cualquier buen libro de texto sobre multivariantes debería tratar estos temas. Tabachnick y Fidell está bien considerado como un tratamiento sencillo y aplicado de este tema.

6voto

Thomas Bratt Puntos 215

Para contradecir el primer párrafo de @gung (¡lo siento!), en realidad deberías comprobar las correlaciones entre los residuos en sus modelos múltiples, en lugar de las correlaciones entre las variables dependientes como tales. El hecho de que estas últimas estén correlacionadas por sí mismo no le dice nada sobre si sus estimaciones mejorarán al modelarlas conjuntamente.

2 votos

Así es. Dos VDs podrían ser independientes, pero ambos influenciados por los VDs. Como resultado, aparecerían correlacionados en los datos brutos, pero los residuales no lo estarían, y eso es lo más importante. Buena captura.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X