8 votos

¿Si $X$ es una de varias variables que resumen $Y$, es la $R^2$entre $X$y $Y$ un valor útil?

Una hipótesis para el análisis de regresión es que $X$ $Y$ no están entrelazados. Sin embargo, cuando pienso en ello me parece que es de sentido común.

Aquí es un ejemplo. Si tenemos un test con 3 secciones (B y C). El total de puntuación de la prueba es igual a la suma de los puntajes individuales para las 3 secciones. Ahora tiene sentido decir que el $X$ puede ser la puntuación en la sección a y $Y$ el total de puntuación de la prueba. A continuación, la regresión lineal puede responder a esta pregunta: ¿cuál es la variabilidad en el total de la puntuación de la prueba que es atribuible a la sección a? Aquí, varios escenarios posibles:

  1. La sección a es la más difícil de las 3 secciones y estudiantes siempre la puntuación más baja. En tal caso, intuitivamente $R^2$ sería baja. Debido a que la mayoría del total de la puntuación de la prueba será determinada por B y C.
  2. Sección de Una era muy fácil para los estudiantes. También en este caso la correlación no serían muy altos. Porque los estudiantes siempre conseguir el 100% de esta sección y, por tanto, esta sección no nos dice nada sobre el total de puntuación de la prueba.
  3. La sección a tiene intermmediate dificultad. En este caso, la correlación sería más fuerte (pero esto también depende de los otros puntajes (B y C).

Otro ejemplo es este: analizamos el contenido total de un elemento traza en la orina. Y analizamos de manera independiente, las especies individuales (formas químicas) de ese elemento traza en la orina. Puede haber muchas formas químicas. Y si nuestros análisis son correctos, la suma de formas químicas nos debe de dar la misma como el contenido total de un elemento (analizado por una técnica diferente). Sin embargo, tiene sentido preguntarse si una forma química se correlaciona con el total de elemento contenido en la orina, ya que este contenido total es un indicador de la ingesta total de alimentos de ese elemento. Entonces, si decimos que $X$ es el total del elemento en la orina y $Y$ es la forma química en la orina, a continuación, mediante el estudio de la correlación que podemos explorar si esta forma química es el más importante que contribuye a la variablity o no.

a mí me parece que es de sentido común, a veces, incluso cuando se $X$ $Y$ no son independientes y que esto en algunos casos puede ayudar a responder a preguntas de carácter científico.

Pensaría $R^2$ pueden ser útiles o significativos en los ejemplos anteriores ? Si tenemos en cuenta la puntuación de la prueba de ejemplo de arriba, me gustaría decir ya no sería de alrededor de 33% de la contribución de cada sección tenía la dificultad sido exactamente la misma para los estudiantes. Pero en la práctica esto no es necesariamente cierto. Así que estaba pensando que tal vez con el análisis de regresión nos puede ayudar a saber la verdad de la variabilidad atribuida a cada sección de un examen. Así que me parece que $R^2$ sería significativo, aunque ya sabemos que la hipótesis nula no es cierto.

Hay alternativa modificado los métodos de regresión para dar cuenta de estas situaciones y nos proporcionan significativa de los parámetros?

5voto

Likso Puntos 68

Usted puede ser que desee considerar un enfoque fuera de lo tradicional enfoque de regresión. Esto es comparable a los tipos de problemas que la psicometría es diseñado para resolver (bueno, en realidad su primer ejemplo es, precisamente, que, puesto que es una prueba).

En la Clásica Prueba de la Teoría, una de las métricas más comunes es el ítem-puntuación total de correlación, que es esencialmente la correlación entre el elemento de puntuación y la puntuación total. Se dice que el elemento de la discriminación - es la capacidad para discriminar entre la alta y la baja puntuación de los encuestados. Esto es comparable a la explicación de la varianza, como lo que usted está preguntando acerca de arriba con $R^2$. Hay dos formas para el cálculo de este puntaje, ya sea mediante el uso de la puntuación total de la prueba, incluyendo el elemento de interés, o que lo excluye. Cuando usted tiene un montón de elementos, estos dos métodos son casi los mismos, pero cuando se tienen pocos elementos, entonces se puede hacer una gran diferencia.

Otro enfoque de la Teoría de Respuesta al Ítem (IRT) es estimar, ya sea a través de una 2-parámetro de elemento de modelo de respuesta o a través de un análisis factorial confirmatorio (que estadísticamente son los mismos, pero la interpretación de sabios son diferentes). 2-parámetro incluye el modelo de un parámetro para el elemento de dificultad (la relativa dificultad del ítem) y uno para el tema de la discriminación, que es una interpretación muy similar a la del ítem-puntuación total de la correlación. Alto a la discriminación=el elemento que diferencia entre la alta y la baja de goleadores. Si el uso de análisis factorial confirmatorio (CFA), que han elemento de cargas, que son esencialmente la discriminación de los parámetros. Se dirá cuánto de la puntuación total es impulsado por un elemento en particular.

El uso de IRT o CFA se supone que un latente de puntuación, no se observa una puntuación, que está tratando de estimar. En los ejemplos que se dan de arriba, le preocupa que se observa una puntuación, que no es latente. Por lo que estos modelos no ser lo que usted está después de, ya que ellos son probabilísticos y que tipo de tener una relación tautológica (el total es, por definición, compuesto de las partes, con ningún error). Pero que los señalo como ejemplos de las formas en las estadísticas obtiene respuestas similares.

La última cosa que quiero señalar, y esto es probablemente algo que los demás decían, pero mientras que una suposición es que los regresores son independientes, cuando tenemos una variable categórica, y entramos en maniquíes en el modelo aquellas variables ficticias son, por definición, correlacionados. Por lo que aparentemente violan los supuestos de independencia y traer en la multicolinealidad. Si usted piensa que de esta manera, tendría sentido para ejecutar la regresión de decir los elementos en la orina, y excluir a uno, los coeficientes sería válido como si fuera una sola variable categórica. En ese sentido, usted está recibiendo un número comparable a la de elemento de correlación total, desde la Clásica Prueba de la Teoría que se me ha señalado anteriormente.

4voto

willmer Puntos 11

Una rápida mathematial forma de mirar es ampliar las fórmulas. Deje $Z=X+Y+W$.

$$ R^2 =\left(\frac{Cov(X,Z)}{\sigma_X \sigma_Z}\right)^2 =\left(\frac{Var(X)+Cov(X,Y)+Cov(X,W)}{\sigma_X \sigma_Z}\right)^2 $$

Así, en pocas palabras Usted va a obtener la varianza de $X$ más de su relación con sus otras dos variables, dividido por un factor de escala. El factor de escala en sí misma podría ser ampliado, pero el numerador es contar la historia. En general, las cosas que le afectan a ese número son: a) la escala relativa de X en comparación con y y W, b) la relación de la varianza de X, c) X de la "contribución" a la varianza de y y W.

Como para que sea útil o no, eso depende de lo que usted está después. Es probablemente la mejor manera de pensar en él como un "porcentaje de la variación total" o algo así, aunque sea la misma para y y W pueden no sumar 1 (o tal vez no...no estoy seguro).

2voto

Si X es una de varias variables que resumen para definir Y, entonces claramente los supuestos de la regresión lineal se rompen. Los valores de P no será útiles. Las pistas y sus intervalos de confianza no puede interpretarse de la manera habitual. ¿Pero sigue siendo útil la R2? Supongo que es como una estadística descriptiva. Si tienes tres valores de R2, cuantificación de la correlación entre Y y cada uno de sus tres componentes, supongo que sería algo interesante aprendes viendo los valores relativos de R2.

0voto

grifferz Puntos 543

Una hipótesis para el análisis de regresión es que $X$ $Y$ no están entrelazados.

Esto es incorrecto. Una hipótesis para el análisis de regresión es que los ERRORES no están correlacionados. Ver la entrada de wikipedia para el de Gauss-Markov teorema.

Si $X$ es una de varias variables que se suma a $Y$, es el $R^2$ $X$ $Y$ un valor útil?

El único uso que puede pensar el $R^2$ $X$ $Y$ es mostrar cómo es mucho mejor que su modelo funciona cuando se incluyen otros predictores. Hay otros valores que sería mucho informativo. Los valores de los coeficientes estimados y sus errores estándar en particular.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X