8 votos

R-cuadrado: X "explica" el porcentaje de variación de los valores de Y. ¿Importa el orden de los ejes?

Resumen : ¿Estoy correlacionando dos variables independientes? ¿Es ese el problema?

Digamos que tengo los datos de los metros cuadrados de una casa y el precio de venta. Ahora puedo preguntar: "¿Los metros cuadrados (x) determinan el precio (y)?". Esto es intuitivo y tiene sentido. El R-cuadrado acabaría diciendo "Los metros cuadrados explican el X% de la variación del precio". Hasta aquí, todo bien.

Pero, ¿y si quiero predecir los metros cuadrados a partir del precio? Eso parece válido. Ahora, me pregunto: "¿El precio (x) determina los metros cuadrados (y)?". Hasta ahora, parece que cualquiera de las dos puede funcionar como variable independiente o dependiente. Sin embargo, la redacción o la r-cuadrado parecen fuera de lugar. "El precio explica el X% de la variación de los metros cuadrados". ¿Eh? Los metros cuadrados no son una especie de variable multifactorial. Es más bien estática. Nada "explica" los metros cuadrados, simplemente son. ¿Entiendes lo que digo? Como si el precio sólo explica el x% de los metros cuadrados, ¿qué otra cosa podría explicar los metros cuadrados? Los metros cuadrados son simplemente metros cuadrados. No es como el precio, que puede estar determinado por muchas cosas (metros cuadrados, renovaciones, tamaño del patio, etc.).

Otro ejemplo puede ser la edad (x) y el kilometraje de un coche (y). Con una ecuación de regresión, puedo utilizar una para predecir la otra. Cualquier orden parece funcionar. Sin embargo, ¿la edad "explica" el kilometraje o el kilometraje "explica" la edad? En este caso, ambos parecen extraños. Ambas son variables independientes estáticas. Ninguna explica a la otra, en mi opinión.

¿Qué me falta aquí? Gracias.

2 votos

$R^2$ puede expresarse como el cuadrado de la correlación entre los valores observados y los ajustados en un modelo de regresión. La correlación es una operación simétrica (por ejemplo ${\rm cor}(X,Y) = {\rm cor}(Y,X)$ para dos variables aleatorias $X,Y$ ) así que, no, el orden no importa.

0 votos

Entonces, ¿por qué el ejemplo anterior suena tan mal?

2 votos

Tal vez estas observaciones ayuden un poco: fíjese que es el variación en algo que se está "explicando" aquí, no el algo en sí. "Explicado" es una elección de palabras especialmente pobre, en mi opinión. "Explicado" o "acomodado por el modelo ajustado" se acercan más a lo que ocurre, pero son más largas y complicadas de decir o escribir.

10voto

J. Fabian Meier Puntos 543

Tu redacción está implicando causalidad, que no es lo que representa la R^2. "El precio (x) determina los metros cuadrados (y)" implica causalidad, que no es lo que se refleja en una correlación. "El precio explica el X% de la variación de los metros cuadrados" describe que existe una relación entre el precio y los metros cuadrados, pero no una relación causal. Esto sólo implica que estas variables varían juntas, no que el precio cause los metros cuadrados . Es más parecido a decir " En general, cuando el precio sube X cantidad, los metros cuadrados suben Y cantidad "

1 votos

Tienes razón, pero es irónico que la gente suela entender una frase como "cuando el precio sube, ... los metros cuadrados suben..." en el causal sentido de los cambios en el precio creando cambios en los metros cuadrados. (Agente inmobiliario, necesito más espacio en mi casa: ¡por favor, póngala en el mercado y luego aumente el precio de venta en un 20%!) La interpretación habitual de R^2 como "explicación" de la varianza sufre el mismo problema de causalidad coloquialmente implícita, que creo que está en la raíz de la pregunta original. A la luz de esto, sería mejor replantear tu última frase con otras palabras.

0 votos

Buen punto algo como "relación positiva entre" o algo que evite algún tipo de mecanismo subyacente sería mejor.

6voto

Dilip Sarwate Puntos 16161

Editado con material añadido en respuesta a los comentarios de @whuber

Esta es una respuesta basada en la teoría de la probabilidad, no en estimaciones estadísticas, por lo que su kilometraje puede variar.

Si las variables aleatorias $X$ y $Y$ tienen un coeficiente de correlación $\rho$ entonces la estimación lineal del error mínimo cuadrático de $Y$ dado el valor de $X$ es $$\hat{Y} = \mu_Y + \rho\frac{\sigma_Y}{\sigma_X}(X - \mu_X),$$ y de forma similar, la estimación del error lineal mínimo cuadrático de $X$ dado el valor de $Y$ es $$\hat{X} = \mu_X + \rho\frac{\sigma_X}{\sigma_Y}(Y - \mu_Y).$$ Tenga en cuenta que $\hat{Y}$ y $\hat{X}$ son variables aleatorias que son funciones lineales de $X$ y $Y$ respectivamente. Sus medias son $$\begin{align*} \mu_{\hat{Y}} &=E[\hat{Y}] = E\left[\mu_Y+\rho\frac{\sigma_Y}{\sigma_X}(X - \mu_X)\right] = \mu_Y+ \rho\frac{\sigma_Y}{\sigma_X}E[X - \mu_X] = \mu_Y\\ \mu_{\hat{X}} &= E[\hat{X}] = E\left[\mu_X+\rho\frac{\sigma_X}{\sigma_Y}(Y - \mu_Y)\right] = \mu_Y+ \rho\frac{\sigma_X}{\sigma_Y}E[Y - \mu_Y] = \mu_X \end{align*}$$ mientras que las desviaciones son $$\begin{align*} \sigma_{\hat{Y}}^2 &= E[(\hat{Y} - \mu_{\hat{Y}})^2] = \frac{\rho^2\sigma_Y^2}{\sigma_X^2}E[(X-\mu_X)^2] = \rho^2\sigma_Y^2\\ \sigma_{\hat{X}}^2 &= E[(\hat{X} - \mu_{\hat{X}})^2] = \frac{\rho^2\sigma_X^2}{\sigma_Y^2}E[(Y-\mu_Y)^2] = \rho^2\sigma_X^2 \end{align*}$$ Por último, las varianzas de los residual errores $Y - \hat{Y}$ y $X - \hat{X}$ son $\sigma_Y^2(1-\rho^2)$ y $\sigma_X^2(1-\rho^2)$ respectivamente. Se puede pensar en estos resultados como siguientes.

Si utilizamos la media $\mu_Y$ como estimación para $Y$ el error medio cuadrático es $\sigma_Y^2$ pero si conocemos el valor de $X$ y utilizar $\mu_Y + \rho\frac{\sigma_Y}{\sigma_X}(X - \mu_X)$ como la estimación de $Y$ el error medio cuadrático se reduce a $\sigma_Y^2(1-\rho^2)$ .

Si utilizamos la media $\mu_X$ como estimación para $X$ el error medio cuadrático es $\sigma_X^2$ pero si conocemos el valor de $Y$ y utilizar $\mu_X + \rho\frac{\sigma_X}{\sigma_Y}(Y - \mu_Y)$ como la estimación de $X$ el error medio cuadrático se reduce a $\sigma_X^2(1-\rho^2)$ .

En ambos casos, el error cuadrático medio se reduce por el misma fracción $(1-\rho^2)$ .


En términos de gráficos de dispersión (para variables aleatorias discretas o datos) en un plano con ejes de coordenadas $x$ y $y$ , tenemos dos líneas rectas $$ \begin{align*} y &= \mu_Y + \rho\frac{\sigma_Y}{\sigma_X}(x - \mu_X),\\ x &= \mu_X + \rho\frac{\sigma_X}{\sigma_Y}(y - \mu_Y), \end{align*} $$ de diferentes pendientes $\rho\sigma_Y/\sigma_X$ y $\sigma_Y/\rho\sigma_X$ pasando por el punto medio $(\mu_X,\mu_Y)$ . La razón de las diferentes pendientes es que estamos eligiendo la pendiente para minimizar la suma de los cuadrados de los vertical distancias de los puntos a la línea en el primer caso, y minimizar la suma de los cuadrados de las distancias horizontales de los puntos de la línea en el segundo caso. Estas sumas de distancias al cuadrado son $\sigma_Y^2(1-\rho^2)$ y $\sigma_X^2(1-\rho^2)$ respectivamente.

Como ejemplo sencillo, supongamos que $(X,Y)$ asume los valores $(0,0)$ , $(0,1)$ y $(1,1)$ con igual probabilidad $\frac{1}{3}$ cada uno o tenemos un gráfico de dispersión con estos tres puntos. Uno puede moler a través de los cálculos si se desea, pero debería ser intuitivamente obvio que debemos estimar $Y$ como $\frac{1}{2}$ si $X = 0$ y como $1$ si $X = 1$ mientras que deberíamos estimar $X$ como $0$ si $Y = 0$ y como $\frac{1}{2}$ si $Y = 1$ es decir, las dos líneas tienen diferentes pendientes $\frac{1}{2}$ y $2$ (de hecho, pendientes recíprocas ya que $\sigma_X^2 = \sigma_Y^2 = \frac{2}{9}$ en este ejemplo). Esto es lo que da la teoría la teoría de la probabilidad. Pero si se tratan los tres puntos como una pequeña muestra de de una población desconocida y se utiliza estimaciones de la población medias, varianzas y coeficiente de correlación, entonces sus resultados pueden ser diferentes.

0 votos

Ayudaría ser explícito sobre lo que esto dice sobre $R^2$ y proporcionar alguna intuición al respecto. Las fórmulas están muy bien -aportan el rigor que se valora en las buenas respuestas- pero la pregunta pide explicación. Entonces, ¿por qué la minimización de las distancias verticales y la minimización de las distancias horizontales deberían dar lugar a la misma $R^2$ ?

0 votos

@whuber No soy un estadístico y no estoy muy seguro de saber qué $R^2$ es. Basado en una lectura superficial de lo que dice la wikipedia, parecería ser similar a $\rho^2$ , en cuyo caso el comentario de Macro parece ser pertinente.

1voto

JornC Puntos 81

Su ejemplo puede ser legítimo en el sentido contrario. ¿Por qué no estimar los metros cuadrados a partir del precio? Supongamos que los datos de los precios son públicos, pero los metros cuadrados no. Sin embargo, usted quiere estimar los metros cuadrados (para determinar el mercado de las alfombras o los muebles, el coste probable de la calefacción o lo que sea). Es perfectamente válido modelar los metros cuadrados en función del precio.

En mi opinión, te estás liando con la semántica de las variables "independiente" y "dependiente". Es mejor utilizar "predictor" y "predicho".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X