30 votos

Cómo describir o visualizar un modelo de regresión lineal múltiple

Estoy intentando ajustar un modelo de regresión lineal múltiple a mis datos con un par de parámetros de entrada, digamos 3.

\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d \tag{ii} \end{align}

¿Cómo explicar y visualizar este modelo? Se me ocurren las siguientes opciones:

  1. Mencione la ecuación de regresión descrita en $(i)$ (coeficientes, constante) junto con la desviación estándar y luego un gráfico de error residual para mostrar la precisión de este modelo.

  2. Gráficos de pares de variables independientes y dependientes, como éste:

    enter image description here

  3. Una vez conocidos los coeficientes, ¿pueden los puntos de datos utilizados para obtener la ecuación $(i)$ condensarse en sus valores reales. Es decir, los datos de entrenamiento tienen nuevos valores, de la forma $x$ en lugar de $x_1$ , $x_2$ , $x_3$ , $\ldots$ donde cada una de las variables independientes se multiplica por su coeficiente respectivo. Entonces esta versión simplificada se puede mostrar visualmente como una regresión simple como esta:

    enter image description here

Estoy confundido a pesar de haber leído el material adecuado sobre este tema. ¿Puede alguien explicarme cómo "explicar" un modelo de regresión lineal múltiple y cómo mostrarlo visualmente?

32voto

gregory_britten Puntos 743

Mi forma favorita de mostrar los resultados de una regresión lineal múltiple básica es ajustar primero el modelo a variables normalizadas (continuas). Es decir, transformar en z las $X$ s sustrayendo la media y dividiendo por la desviación típica, luego ajustar el modelo y estimar los parámetros. Cuando las variables se transforman de este modo, los coeficientes estimados se "normalizan" para que tengan unidad $\Delta Y/\Delta sd(X)$ . De este modo, la distancia que separa los coeficientes de cero clasifica su "importancia" relativa y su IC da la precisión. Creo que resume bastante bien las relaciones y ofrece mucha más información que los coeficientes y los valores p en sus escalas numéricas naturales y a menudo dispares. A continuación se muestra un ejemplo:

enter image description here

EDITAR : Otra posibilidad es utilizar un "gráfico de variables añadidas" (es decir, trazar las regresiones parciales). Esto ofrece otra perspectiva, ya que muestra las relaciones bivariadas entre $Y$ y $X_i$ UNA VEZ TENIDAS EN CUENTA LAS DEMÁS VARIABLES. Por ejemplo, las regresiones parciales de $Y \sim X_1 + X_2 + X_3$ daría relaciones bivariadas entre $X_i$ contra los residuos de $Y$ tras aplicar la regresión a los otros dos términos. Esto se haría para cada variable. Función avPlots() de la biblioteca car da estos gráficos a partir de un lm objeto. A continuación se muestra un ejemplo:

enter image description here

2voto

user36539 Puntos 187

Dado que todos ellos tienen que ver con la explicación de los factores que contribuyen a la cirrosis, ¿ha intentado hacer un gráfico de burbujas/circunferencias y utilizar el color para indicar los diferentes factores de corrección y el radio del círculo para indicar el impacto relativo sobre la cirrosis?

Me refiero a un tipo de gráfico de Google que tiene este aspecto: enter image description here

Y en una nota no relacionada, a menos que esté leyendo mal sus parcelas, creo que tiene algunos regresores redundantes allí. El vino ya es un licor así que si esos dos son regresores separados no tiene sentido mantenerlos a ambos, si tu objetivo es explicar la incidencia de cirrosis.

0voto

chrishmorris Puntos 9

La visualización que muestras en 3 (diagrama de dispersión del valor real frente al valor previsto) es buena. Puede utilizarse para cualquier regresor. En este caso, el ejemplo que muestras ayuda a confirmar el supuesto de linealidad, ya que los puntos están dispersos por encima y por debajo de la línea en todo el rango.

Otra suposición que has hecho es la falta de interacción entre los factores. Si quiere comprobarlo, una buena visualización es un diagrama de dispersión de x_i frente a x_j, en el que los puntos se colorean según el tamaño del error en la predicción. Las interacciones por pares entre las x se revelarán por los patrones en los colores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X