Supongamos que tenemos una regresión múltiple con $n$ predictores. Todos ellos tienen correlaciones significativas con la respuesta excepto uno. ¿Podría ser significativo el predictor con la correlación cero con la respuesta?
Respuestas
¿Demasiados anuncios?La situación prototípica en la que una variable tiene una correlación marginal nula con la respuesta, pero una asociación significativamente distinta de cero condicionada a la inclusión de las demás covariables se denomina supresión. Hay varios hilos sobre este tema en CV:
- Efecto de supresión en la regresión: definición y explicación/descripción visual
- X e Y no están correlacionados, pero X es un predictor significativo de Y en la regresión múltiple. ¿Qué significa esto?
- ¿Cómo puede mejorar un modelo de regresión múltiple la inclusión de un IV no correlacionado con el VD?
También es posible que la variable no sea un supresor, sino que sea relevante y simplemente sea "anulada" por otra variable con el efecto contrario con la que está correlacionada. Aquí hay algunas cosas que hay que leer para ayudar a entender eso:
Sí, puede suceder e incluso pueden darse escenarios más extremos.
Piensa que tienes 2 características, el inicio de un periodo $s$ y su fin $e$ . Supongamos que el concepto es la longitud del período $l = (e-s)$ y construiremos el conjunto de datos para que ambos $s$ y $e$ son independientes de $l$ .
La correlación considera sólo una característica y el concepto y será $0$ (por construcción). Sin embargo, teniendo en cuenta el inicio y el final del periodo, tienes toda la información sobre su duración.
Volviendo a tu pregunta, puedes construir un escenario en el que el predictor de correlación cero y uno de los otros sumadores de predicción sea el concepto. La regresión múltiple es muy adecuada para estos problemas, por lo que puedes obtener una predicción perfecta. Eso será aún más fácil si eliminas el resto de los predictores.