Estoy utilizando R para crear un modelo de regresión lineal a partir de datos de encuestas sobre el sentimiento público hacia una nueva tecnología. Me encuentro con un problema donde la adición de una nueva variable explicativa aumenta el valor de $R^2$ del modelo de 0.52 a precisamente 1. Esto es absurdo, pero soy nuevo en esto y no puedo entender qué está pasando.
La encuesta hace varias preguntas sobre la demografía, valores y conocimientos técnicos. Estos elementos se convierten en las variables explicativas en el modelo. La mayoría son variables dummy o escalas likert que van de 1 a 7 (lo que significa que para cada una de estas preguntas, cada encuestado elige un número entre 1 y 7). La encuesta también pregunta a los encuestados en qué medida apoyarían la inversión del gobierno en la nueva tecnología. Esa pregunta se convierte en la variable dependiente en el modelo. También es una escala likert que va de 1 a 7.
Estoy utilizando la función lm()
de R para regresar las variables de conocimiento, demografía y valores contra la variable de apoyo a la nueva tecnología. La forma funcional es:
lm(support~demographics+values+knowledge,data=survey).
De aproximadamente 2000 respuestas a la encuesta, quedan 900 después de descartar los valores NA. Creé un modelo que comprende aproximadamente 20 variables explicativas, con un valor de $R^2$ de 0.52. Luego, agregué una 21ª variable explicativa, y el $R^2$ saltó a 1. Cuando hago una regresión simple de solo esta nueva variable y la variable dependiente, el $R^2$ es 0.67. ¿Qué podría estar pasando?