2 votos

Grasa corporal, abdomen y bíceps: ¿Cómo interpretar estos datos?

Con la ayuda de la circunferencia abdominal y la circunferencia de los bíceps queremos profetizar la grasa corporal. Para ello recopilamos los datos de 252 hombres (los primeros 40 datos se muestran a continuación). Primero haz la regresión lineal del modelo grasa corporal/ abdomen, luego la regresión liear del modelo grasa corporal/ bíceps y luego la regresión múltiple del modelo grasa corporal/ (abdomen + bíceps). Compara e interpreta los resultados.

A continuación se muestra una parte de los datos para que se haga una idea de cómo son. Con R hice las dos regresiones lineales simples y la regresión múltiple y la dibujé (ver abajo).

Modelo 1 (grasa corporal/ abdomen)

Para el modelo lineal obtuve los dos coeficientes estimados $$ \hat{\theta}_1\approx-35.197,~~~\hat{\theta}_2\approx0.585. $$ Con esto tracé la línea en los datos que se ven en la primera imagen.

Modelo 2 (grasa corporal/ bíceps)

Aquí, obtuve los dos coeficientes estimados $$ \hat{\theta}_1\approx-21.882,~~~\hat{\theta}_2\approx1.265. $$ De nuevo tracé la línea (s. segunda imagen de abajo).

Modelo 3 (grasa corporal/ (abdomen + bíceps))

Aquí había que determinar tres coeficientes, obtuve $$ \hat{\theta}_1\approx -30.684,~\hat{\theta}_2\approx 0.645,~\hat{\theta}_3\approx -0.311. $$

Ahora se trata de comparar e interpretar. Pero para ser honesto, tengo algunas dificultades para leer algo en este... o para interpretar algo.

¿Tal vez pueda ayudarme a comparar e interpretar?

¿Qué se desprende de todo esto?


data

graphics and regressions

EDITAR

En $R^2$ -valor del primer modelo es $R^2=0.6621$ .

En $R^2$ -valor del segundo modelo es $R^2=0.2431$ .

En $R^2$ -valor del tercer modelo es $R^2=0.6699$ .

Así, entre el abdomen y la grasa corporal hay una conexión lineal bastante buena, pero la conexión lineal entre los bíceps y la grasa corporal parece ser bastante pequeña. Si se juntan el abdomen y los bíceps, hay una mejor conexión lineal, lo que parece claro, porque la grasa corporal depende de muchos factores (como la comida, el movimiento, los genes, etc.) y cuantos más factores se tengan en cuenta, mejor será la conexión.

5voto

Nick Stauner Puntos 8220

Parece que va por buen camino en lo que respecta a la R ². Aunque hay que tener en cuenta una cosa: R ² siempre aumentará al añadir predictores a un modelo de regresión múltiple; por eso calculamos el valor ajustado de R ². Ajustado R ² puede disminuir al añadir predictores relativamente poco útiles. También puede comparar el modelo con ambos predictores con el modelo anidado con un solo predictor utilizando un valor de F -prueba, por si te interesa hacerlo.

Probablemente, tu profesor también espera que interpretes los coeficientes de regresión. Suponiendo que $\hat\theta_1$ representa el intercepto en cada caso, esto representa el valor de la variable dependiente cuando la(s) variable(s) independiente(s) es(son) igual(es) a cero. ¿Hasta qué punto crees que deberías tomarte en serio estos valores? ¿Esperarías que alguien tuviera una circunferencia abdominal igual a cero, por no hablar de una grasa corporal negativa?

En cualquier caso, el intercepto es útil como punto de partida o valor de ajuste para sus predicciones de grasa corporal basadas en la circunferencia del abdomen y los bíceps. Los coeficientes de pendiente (supongo que son sus $\hat\theta_{2\ \&\ 3}$ ) representan cuánto cambia la grasa corporal por cada unidad de aumento del predictor correspondiente. Estos coeficientes pueden ser positivos o negativos, pero los suyos son ambos positivos. ¿Qué le dice esto sobre las relaciones entre la grasa corporal y la circunferencia del abdomen y los bíceps? Si la circunferencia aumenta, ¿cómo cambia la grasa corporal y en qué medida? Usted ha dado las respuestas; sólo tiene que identificarlas adecuadamente.

Para un desafío adicional, intente multiplicar la circunferencia del bíceps y del abdomen y añadir ese producto como tercer predictor en la regresión múltiple. Se trata de un interacción plazo y podría revelar información interesante.

2voto

rkthkr Puntos 6651

Sólo para añadir un ejemplo que subraye la respuesta de Nick. Imagina que el dios del fitness, Arnold, nos dice la ley de la grasa . Y resulta que sí:
$\text{Fat} = -35 + 0.6 * \text{Abdomen}$

Usted, como buen científico, recoge 252 observaciones, que puede simular en R de la siguiente manera:

set.seed(0) #to have the same observations
abdomen<-rnorm(n=252,mean = 85,sd=10)
fat<--35+0.6*abdomen + rnorm(252,mean=0,sd=5) 

Ahora ejecuta tu regresión lineal sobre él:

summary(lm(fat~abdomen))

Y consigues un respetable $R^2$ de .5063 y estimar el intercepto en $-29.5$ y el efecto abdomen en $.53$ . No es perfecto, pero en el estadio. Y oye, ¡eran observaciones muy ruidosas!

Pero ahora viene tu peor némesis y te dice "los bíceps también son importantes para predecir la grasa" y no tienes más remedio que acabar con este gamberro. Bueno, por suerte también has recopilado información sobre los bíceps, así que ejecutas una regresión más:

biceps<-rnorm(n=252, mean=33,sd=4)
summary(lm(fat~abdomen+biceps))

Y mira eso, el $R^2$ subió un poquito, ahora es .5072. ¿Nos está abandonando Arnold? Esto sí que es raro. En el código para generar grasa, no agregamos bíceps. ¿Qué es lo que pasa? Bueno, como Nick ya te dijo: cuantos más parámetros agregues, mejor será el ajuste. Aunque, como en este caso, el nuevo parámetro fuera basura.

Ahora bien, hay muchas formas de abordar esta cuestión. Si asumes, como es correcto en este caso, que los errores se distribuyen normalmente, puedes comprobar que la hipótesis del parámetro bíceps es 0. Puedes hacer validación cruzada para elegir entre los dos modelos. Pero en este caso, ya que has puesto fotos bonitas, vamos a resolver este reto gráficamente.

Un teorema muy útil es el Teorema de Frisch-Waugh-Lovell . Dice que para regresiones lineales múltiples, digamos $Y=X+Z$ . Ahora en vez de hacer una gran regresión, haces dos separadas: $Y=X$ y $Z=X$ entonces se toman los residuos de estas regresiones $e_1$ y $e_2$ y los retrocedes $e_1=e_2$ . El coeficiente de $e_2$ en $e_1$ es exactamente la de $Z$ en $Y$ que habrías obtenido con la regresión original.

Vale, pero ¿por qué dar tantas vueltas? Porque cuando se representan los residuos, en realidad se representa el efecto de una variable sobre otra. $Y$ *después de eliminar los efectos de todas las demás variables$. Lo que es genial para ver los efectos de cada variable por separado. Así, si haces el tratamiento FWL a los abdominales obtienes:

fatResiduals<-lm(fat~abdomen)$residuals
bicepsResiduals<-lm(biceps~abdomen)$residuals

lm(residuals~bicepsResiduals)
plot(fatResiduals~bicepsResiduals)

enter image description here

Así que puedes ver todavía una relación lineal muy fuerte de los abdominales sobre la grasa. Pero si haces el mismo tratamiento a los bíceps:

fatResiduals2<-lm(fat~biceps)$residuals
absResiduals<-lm(abdomen~biceps)$residuals
plot(fatResiduals2~absResiduals)

enter image description here

Es muy difícil saber si existe alguna relación. La palabra de Arnold es cierta. Pero por supuesto su némesis no le creerá.

-1voto

En el tercer modelo, no hay que sumar abdomen + bíceps. Tienes que construir un modelo multivariable en el que ambas variables predigan la grasa corporal.

Para comparar los modelos, mira el R- cuadrado. Los valores más altos indican un mejor rendimiento del modelo. Esta sencilla comparación puede realizarse utilizando varios estadísticos de ajuste.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X