11 votos

¿Cuándo hay que transformar las variables predictoras al hacer una regresión múltiple?

Actualmente estoy tomando mi primera clase de regresión lineal aplicada a nivel de postgrado, y estoy luchando con las transformaciones de las variables predictoras en la regresión lineal múltiple. El texto que estoy usando, Kutner et al "Applied Linear Statistical Models" no parece cubrir la pregunta que estoy teniendo. (aparte de sugerir que hay un método Box-Cox para transformar predictores múltiples).

Cuando nos enfrentamos a una variable de respuesta y a varias variables predictoras, ¿qué condiciones se intentan cumplir con cada una de ellas? Entiendo que en última instancia buscamos la constancia de la varianza del error y que los errores se distribuyan normalmente (al menos en las técnicas que me han enseñado hasta ahora). Me han llegado muchos ejercicios en los que la solución era, por ejemplo y ~ x1 + (1/x2) + log(x3) donde uno o más predictores fueron transformados.

Entendí la razón de ser de la regresión lineal simple, ya que era fácil mirar y~x1 y los diagnósticos relacionados (gráficos q-q de los residuos, residuos frente a y, residuos frente a x, etc.) y probar si y~log(x1) se ajustaba mejor a nuestros supuestos.

¿Existe un buen punto de partida para entender cuándo transformar un predictor en presencia de muchos predictores?

Gracias por adelantado. Matt

3voto

Sean Hanley Puntos 2428

Entiendo que su pregunta es: ¿cómo se detectar cuando se dan las condiciones que hacen apropiadas las transformaciones, en lugar de lo que las condiciones lógicas son . Siempre es bueno completar los análisis de datos con la exploración, especialmente la exploración gráfica de datos. (Se pueden realizar varias pruebas, pero aquí me centraré en la exploración gráfica de datos).

Los gráficos de densidad del núcleo son mejores que los histogramas para obtener una visión general inicial de la distribución univariante de cada variable. Con múltiples variables, una matriz de dispersión puede ser útil. También es aconsejable utilizar Lowess al principio. Esto le dará una visión rápida y sucia de si las relaciones son aproximadamente lineales. El paquete de coches de John Fox combina de forma útil estos elementos:

library(car)
scatterplot.matrix(data)

Asegúrese de tener sus variables como columnas. Si tiene muchas variables, los gráficos individuales pueden ser pequeños. Maximice la ventana de gráficos y los gráficos de dispersión deben ser lo suficientemente grandes como para elegir los gráficos que desea examinar individualmente, y luego hacer gráficos individuales. Por ejemplo

windows()
plot(density(X[,3]))
rug(x[,3])
windows()
plot(x[,3], y)
lines(lowess(y~X[,3]))

Después de ajustar un modelo de regresión múltiple, debe trazar y comprobar sus datos, al igual que con la regresión lineal simple. Los gráficos QQ para los residuos son igual de necesarios, y podría hacer una matriz de dispersión de sus residuos contra sus predictores, siguiendo un procedimiento similar al anterior.

windows()
qq.plot(model$residuals)
windows()
scatterplot.matrix(cbind(model$residuals,X))

Si algo parece sospechoso, trazarlo individualmente y añadir abline(h=0) como guía visual. Si tiene una interacción, puede crear una variable X[,1]*X[,2], y examinar los residuos contra eso. Del mismo modo, puede hacer un gráfico de dispersión de los residuos frente a X[,3]^2, etc. Otros tipos de gráficos, además de los residuales frente a x, que te gusten pueden hacerse de forma similar. Tenga en cuenta que todos estos están ignorando las otras dimensiones x que no están siendo trazadas. Si sus datos están agrupados (por ejemplo, de un experimento), puede hacer gráficos parciales en lugar de / además de gráficos marginales.

Espero que eso ayude.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X