21 votos

Cómo convertir un modelo lineal multivariante en una regresión múltiple

¿Es totalmente equivalente refundir un modelo de regresión lineal multivariante como una regresión lineal múltiple? No me refiero a la simple ejecución de $t$ regresiones separadas.

He leído en algunos sitios (Bayesian Data Analysis -- Gelman et al., y Multivariate Old School -- Marden) que un modelo lineal multivariante puede ser fácilmente reparametrizado como la regresión múltiple. Sin embargo, ninguna de las dos fuentes lo explica en absoluto. Básicamente se limitan a mencionarlo y luego continúan utilizando el modelo multivariante. Matemáticamente, escribiré primero la versión multivariante,

$$ \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, $$ donde las variables en negrita son matrices con sus tamaños debajo. Como siempre, $\mathbf{Y}$ son datos, $\mathbf{X}$ es la matriz de diseño, $\mathbf{R}$ son residuos normalmente distribuidos, y $\mathbf{B}$ es lo que nos interesa para hacer inferencias.

Para reparametrizar esto como la conocida regresión lineal múltiple, simplemente se reescriben las variables como

$$ \underset{nt \times 1}{\mathbf{y}} = \underset{nt \times nk}{\mathbf{D}} \hspace{2mm} \underset{nk \times 1}{\boldsymbol{\beta}} + \underset{nt \times 1}{\mathbf{r}}, $$

donde las reparametrizaciones utilizadas son $\mathbf{y} = row(\mathbf{Y}) $ , $\boldsymbol\beta = row(\mathbf{B})$ y $\mathbf{D} = \mathbf{X} \otimes \mathbf{I}_{n}$ . $row()$ significa que las filas de la matriz están dispuestas de extremo a extremo en un vector largo, y $\otimes$ es el producto de kronecker o externo.

Entonces, si esto es tan fácil, ¿por qué molestarse en escribir libros sobre modelos multivariantes, estadísticas de prueba para ellos, etc.? Lo más eficaz es transformar primero las variables y utilizar las técnicas univariantes habituales. Estoy seguro de que hay una buena razón, pero me cuesta pensar en una, al menos en el caso de un modelo lineal. ¿Existen situaciones con el modelo lineal multivariante y errores aleatorios normalmente distribuidos en las que esta reparametrización no se aplique, o limite las posibilidades del análisis que pueda emprender?

Fuentes que he visto Marden - Multivariate Statistics: Old School. Ver secciones 5.3 - 5.5. El libro está disponible gratuitamente en: http://istics.net/stat/

Gelman et al. - Análisis bayesiano de datos. Tengo la segunda edición, y en esta versión hay un pequeño párrafo en el capítulo 19 "Modelos de regresión multivariante" titulado: "El modelo de regresión univariante equivalente"

Básicamente, ¿se puede hacer con el modelo de regresión lineal univariante equivalente todo lo que se podría hacer con el modelo multivariante? Si es así, ¿por qué desarrollar métodos para modelos lineales multivariantes?

¿Y con los enfoques bayesianos?

6voto

Volomike Puntos 372

Básicamente, ¿se puede hacer todo con el modelo de regresión lineal univariante equivalente modelo de regresión lineal que con el modelo multivariante?

Creo que la respuesta es no.

Si su objetivo es simplemente estimar los efectos (parámetros en $\mathbf{B}$ ) o para seguir haciendo predicciones basadas en el modelo, entonces sí que no importa adoptar la formulación del modelo entre los dos.

Sin embargo, para hacer inferencias estadísticas, especialmente para realizar las clásicas pruebas de significación, la formulación multivariante parece prácticamente insustituible. Más concretamente, permítanme utilizar el típico análisis de datos en psicología como ejemplo. Los datos de $n$ los sujetos se expresan como

$$ \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, $$

donde el $k-1$ las variables explicativas entre sujetos (factor o/y covariables cuantitativas) se codifican como las columnas en $\mathbf{X}$ mientras que el $t$ Los niveles del factor de medidas repetidas (o dentro de un sujeto) se representan como variables simultáneas o las columnas en $\mathbf{Y}$ .

Con la formulación anterior, cualquier hipótesis lineal general puede expresarse fácilmente como

$$\mathbf{L} \mathbf{B} \mathbf{M} = \mathbf{C},$$

donde $\mathbf{L}$ se compone de las ponderaciones entre las variables explicativas entre sujetos, mientras que $\mathbf{L}$ contiene las ponderaciones entre niveles de los factores de medidas repetidas, y $\mathbf{C}$ es una matriz constante, normalmente $\mathbf{0}$ .

La belleza del sistema multivariante reside en su separación entre los dos tipos de variables, entre y dentro del sujeto. Es esta separación la que permite la fácil formulación de tres tipos de pruebas de significación en el marco multivariante: la prueba multivariante clásica, la prueba multivariante de medidas repetidas y la prueba univariante de medidas repetidas. Además, las pruebas de Mauchly para la violación de la esfericidad y los métodos de corrección correspondientes (Greenhouse-Geisser y Huynh-Feldt) también resultan naturales para las pruebas univariantes en el sistema multivariante. Así es exactamente como los paquetes estadísticos implementan esas pruebas, como coche en R, GLM en IBM SPSS Statistics, y la sentencia REPEATED en PROC GLM de SAS.

No estoy tan seguro de si la formulación importa en el análisis bayesiano de datos, pero dudo que la capacidad de prueba anterior pueda formularse e implementarse en la plataforma univariante.

4voto

Peteris Krumins Puntos 624

Ambos modelos son equivalentes si se ajusta la estructura de varianza-covarianza adecuada. En el modelo lineal transformado necesitamos ajustar la matriz de varianza-covarianza del componente de error con el producto de Kronecker, que tiene una disponibilidad limitada en los programas informáticos disponibles. Teoría de los modelos lineales: modelos univariantes, multivariantes y mixtos es una excelente referencia para este tema.

Editado

Aquí hay otro bonito referencia disponible de forma gratuita.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X