Estoy tratando de usar el análisis de datos exploratorio para decidir qué modelo usar con mis datos para la predicción, ya sea regresión lineal/redes neuronales, etc., básicamente me estoy enfocando en modelos lineales y no lineales. ¿Qué tipo de análisis exploratorio puedo hacer para decidir si un modelo lineal es lo suficientemente bueno para mí o si sería bueno un modelo no lineal?
Respuesta
¿Demasiados anuncios?El análisis sobre si un modelo lineal es adecuado se hace a menudo de forma post-hoc a través del análisis diagnóstico de los residuos.
Un enfoque exploratorio sería utilizar gráficos de regresión parcial, también llamados gráficos de variables adicionales. Aunque a menudo se conciben como diagnósticos post-hoc, si aún no tienes variables en un modelo (investigando la relación entre $y$ y un solo $x`, por ejemplo), tienen un carácter exploratorio.
Un segundo enfoque sería a través de la escalera de Tukey; si las transformaciones de los $x$ solos pueden lograr una linealidad razonable (siempre y cuando las otras suposiciones sean factibles), la regresión lineal puede ser completamente adecuada.
Existen otras opciones posibles.
Si descartas la transformación, podrías observar gráficos de loess/lowess u otros suavizadores de gráficos de dispersión como indicadores de una relación no lineal.
Si tienes múltiples variables predictoras, se vuelve bastante complicado evaluar la no linealidad sin haber ajustado previamente las otras variables predictoras.