Una hipótesis para el análisis de regresión es que $X$ $Y$ no están entrelazados. Sin embargo, cuando pienso en ello me parece que es de sentido común.
Aquí es un ejemplo. Si tenemos un test con 3 secciones (B y C). El total de puntuación de la prueba es igual a la suma de los puntajes individuales para las 3 secciones. Ahora tiene sentido decir que el $X$ puede ser la puntuación en la sección a y $Y$ el total de puntuación de la prueba. A continuación, la regresión lineal puede responder a esta pregunta: ¿cuál es la variabilidad en el total de la puntuación de la prueba que es atribuible a la sección a? Aquí, varios escenarios posibles:
- La sección a es la más difícil de las 3 secciones y estudiantes siempre la puntuación más baja. En tal caso, intuitivamente $R^2$ sería baja. Debido a que la mayoría del total de la puntuación de la prueba será determinada por B y C.
- Sección de Una era muy fácil para los estudiantes. También en este caso la correlación no serían muy altos. Porque los estudiantes siempre conseguir el 100% de esta sección y, por tanto, esta sección no nos dice nada sobre el total de puntuación de la prueba.
- La sección a tiene intermmediate dificultad. En este caso, la correlación sería más fuerte (pero esto también depende de los otros puntajes (B y C).
Otro ejemplo es este: analizamos el contenido total de un elemento traza en la orina. Y analizamos de manera independiente, las especies individuales (formas químicas) de ese elemento traza en la orina. Puede haber muchas formas químicas. Y si nuestros análisis son correctos, la suma de formas químicas nos debe de dar la misma como el contenido total de un elemento (analizado por una técnica diferente). Sin embargo, tiene sentido preguntarse si una forma química se correlaciona con el total de elemento contenido en la orina, ya que este contenido total es un indicador de la ingesta total de alimentos de ese elemento. Entonces, si decimos que $X$ es el total del elemento en la orina y $Y$ es la forma química en la orina, a continuación, mediante el estudio de la correlación que podemos explorar si esta forma química es el más importante que contribuye a la variablity o no.
a mí me parece que es de sentido común, a veces, incluso cuando se $X$ $Y$ no son independientes y que esto en algunos casos puede ayudar a responder a preguntas de carácter científico.
Pensaría $R^2$ pueden ser útiles o significativos en los ejemplos anteriores ? Si tenemos en cuenta la puntuación de la prueba de ejemplo de arriba, me gustaría decir ya no sería de alrededor de 33% de la contribución de cada sección tenía la dificultad sido exactamente la misma para los estudiantes. Pero en la práctica esto no es necesariamente cierto. Así que estaba pensando que tal vez con el análisis de regresión nos puede ayudar a saber la verdad de la variabilidad atribuida a cada sección de un examen. Así que me parece que $R^2$ sería significativo, aunque ya sabemos que la hipótesis nula no es cierto.
Hay alternativa modificado los métodos de regresión para dar cuenta de estas situaciones y nos proporcionan significativa de los parámetros?