8 votos

Regresión lineal con varios DVs con la correlación de los errores

Cuando pienso en la generalización de la regresión lineal de varias variables dependientes (DVs), supongo que la manera natural de hacer esto es para reemplazar la que normalmente distribuida término de error con un multivariante-normalmente distribuida término de error, cuya matriz de covarianza puede que no sea una matriz diagonal. (Y cada variable independiente se obtiene un vector de coeficientes, con una longitud igual al número de DVs, en lugar de sólo uno de los coeficientes.) Sin embargo, si en R que hace algo como lm(cbind(y1, y2) ~ x1 + x2), donde y1 y y2 son ambos vectores, que se parece a obtener los mismos resultados (es decir, los mismos coeficientes y predicciones) como cuando ejecute lm(y1 ~ x1 + x2) y lm(y2 ~ x1 + x2) por separado. Así que parece que R hace una univariante de regresión para cada uno de DV. Ver también esta pregunta, donde creo que el autor de la pregunta estaba preguntando acerca de este tipo de modelo, pero no todo el mundo se dio cuenta de esto.

Aquí están algunas preguntas concretas:

  1. Si el modelo que he descrito no es usualmente llamado "multivariante de regresión lineal", entonces ¿qué es lo que se llama, si tiene un nombre conocido en todo?

  2. ¿Qué es una buena manera para adaptarse a este tipo de modelo (es decir, la estimación de los coeficientes y las entradas de la matriz de covarianza del error) en Python o R?

4voto

trish Puntos 31

De hecho, esto se llama regresión multivariante. Simplemente creo que no es comúnmente utilizado plazo, ya que no es comúnmente utilizado para la modelo. Tenga en cuenta también que es muy fácil de confundir con la "regresión lineal múltiple."

La razón por la que multivariante de regresión es tan relativamente impopular (y no se implementa de forma explícita en ninguno de los principales paquete estadístico) es en realidad enterrados en los comentarios de una de las respuestas a Multivariante de regresión lineal en R, que voy a repetir aquí:

User603 la respuesta es correcta. Dado un modelo de $Y=XB+E$ y asumiendo $E \sim N(0,\Sigma)$ (por lo que no tiene estrictamente diagonal de la matriz de covarianza) el estimador de máxima verosimilitud para $B$ es simplemente $B_{OLS}=(X^TX)^{−1}X^TY$, lo que equivale en la realización independiente de mínimos cuadrados ordinarios estimados para cada una de las p variables de respuesta y no depende de $\Sigma$. ($Σ$ aparece como $Ω^{−1}$ en la literatura a veces, $Ω$ la precisión de la matriz)

Esta es la razón por la lm está diseñado de esa manera: debido a que los coeficientes estimados son en realidad equivalentes.

Por lo tanto, las diferencias surgen sólo cuando usted está tratando de llevar a cabo pruebas estadísticas en las estimaciones de los parámetros de uso de sus teóricos errores estándar (en contraposición a, por decir, el arranque), o si usted está tratando de estimar la distribución de las predicciones del modelo (que con un inadecuado plana anteriores son equivalentes a posterior predicciones).

Si estás interesado en hacer uso de la estructura de las correlaciones de las variables dependientes, Breiman y Friedman (1997) [1] un interesante papel en el que se desarrolla algo que ellos llaman la "Cuajada Y Suero de leche" procedimiento para la mejora de la precisión de la predicción en regresión lineal multivariado problemas.

También tengo alguna experiencia personal con este tipo de modelos, pero que fueron desagradables y sobre todo infructuosa. He intentado directamente en forma de un Stan mediante la especificación de una normal multivariante distribución de error para cada punto de datos. No tengo una maldita idea de lo que estaba haciendo en el momento y me quedé con capas en las extensiones al modelo, de modo que se convirtió en un lío que no convergen y se me cayó completamente. Sin embargo creo que hay un poco de mérito a la idea básica y estoy tentado a probar de nuevo en algún momento.

[1]: Breiman, L. y Friedman, J. (1997). La predicción de la Multivariante de las Respuestas en el de Regresión Lineal Múltiple. Diario de la Sociedad Real de Estadística, 59(1), 3-54. Disponible (cerrada): http://onlinelibrary.wiley.com/doi/10.1111/1467-9868.00054/pdf. Disponibles (gratis) en: sabes donde buscar

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X