7 votos

Si la variable dependiente está estandarizada por edad y sexo, ¿sigue teniendo sentido incluirlas como controles en una regresión multivariante?

Supongamos que tengo una variable dependiente que es la puntuación de un examen, $score^*_{i}$ . Se ha estandarizado para la edad y el sexo. Quiero medir el efecto que tiene una variable binaria, por ejemplo la adopción, en la puntuación de las personas en el test. ¿Causará algún problema si incluyo la edad y el sexo como controles en la regresión de la puntuación sobre la adopción (dado que se utilizaron para estandarizar la variable dependiente)?

Es decir, estoy haciendo una regresión (usando OLS estándar):

$score^*_{i} = (score_{i} - \alpha_{1}AGE_{i} - \alpha_{2}Gender_{i}) = \beta_{0} + \beta_{1}Age_{i} + \beta_{2}Gender_{i} + \beta_{3}Adopted_{i} + \epsilon_{i}$
donde $score_{i}$ es la puntuación bruta (es decir, la puntuación no estandarizada), $\epsilon_{i}$ es el término de error iid. Quiero saber si $\beta_{3}$ ¿se ve afectado por la inclusión de la edad y el género?

Mi opinión es que esto puede sesgar las estimaciones OLS de los coeficientes de edad y género, pero que no afectaría a la estimación de interés: la estimación de Adopción.

¿Es esto correcto? ¿O es totalmente erróneo incluir la edad y el sexo como controles en este escenario? Si es así, ¿podría explicar por qué?

Gracias.

3voto

dan90266 Puntos 609

Hay problemas potenciales con este enfoque, además de la pregunta obvia de por qué no condicionar simplemente la edad y el sexo en su modelo.

  • La estandarización puede haberse realizado en un grupo de sujetos que difieren de su grupo objetivo de manera significativa, inclinando su evaluación de los efectos de la edad y el sexo
  • La estandarización puede haber supuesto falsamente la linealidad en la edad y la aditividad para la edad y el sexo
  • La normalización puede haberse realizado utilizando una transformación inadecuada $Y$
  • No se tienen en cuenta las incertidumbres asociadas a la normalización

Como puede deducirse de lo anterior, son muchas las ventajas de evitar la "estandarización" y, en su lugar, realizar un condicionamiento completo en su análisis.

3voto

Zizzencs Puntos 1358

Esto es permisible. Si la estandarización se ha hecho sobre una muestra similar a la que usted está utilizando, entonces es de esperar que las estimaciones de los parámetros para la edad y el género sean pequeñas, pero no veo ninguna razón por la que no se pueda incluir (excepto que puede hacer que el modelo sea más complejo de lo necesario).

El problema que puede tener es la interpretación de las puntuaciones. Lo que tendrás no es realmente el efecto de la edad y el género en la puntuación del examen, sino la diferencia de esos efectos entre tu muestra y la muestra de estandarización.

Normalmente, con estas puntuaciones, la fórmula de estandarización está disponible en alguna parte; ciertamente debe estar disponible. Usted dice que no lo está. Entonces, ¿cómo consiguió transformar las puntuaciones brutas? ¿O se hizo todo por ordenador?

2voto

Judioo Puntos 625

Si $\alpha_1$ y $\alpha_2$ se aplican de forma consistente a toda la muestra, entonces tienes razón al pensar que sesgará las estimaciones OLS de la edad y el género pero no de la estimación de la adopción, ya que es sólo una transformación lineal de las puntuaciones basada en la Edad y el Género. Además, si se conoce el valor de la $\alpha$ Entonces se puede realizar una retrotransformación para obtener las estimaciones que interesan, y si se sabe que están correlacionadas con la adopción, deberían incluirse en el modelo.

Tenga en cuenta que no nos interesan los efectos sobre la puntuación ajustada, sino sobre la puntuación original;

$score_i = \beta_{01} + \beta_{11} Age + \beta_{21} Gender + \beta_{31} Adopted$

Pero sólo observamos $score^*_{i} = score_i - \alpha_1 Age - \alpha_2 Gender$ . Así que sólo podemos estimar la ecuación;

$score^*_{i} = \beta_{02} + \beta_{12} Age + \beta_{22} Gender + \beta_{32} Adopted$

Ahora podemos sustituir $score^*_{i}$ en el lado izquierdo con la puntuación original en la que estamos interesados, y luego reordenar la ecuación para que la edad y el género estén sólo en el lado derecho.

$score_i - \alpha_1 Age - \alpha_2 Gender = \beta_{02} + \beta_{12} Age + \beta_{22} Gender + \beta_{32} Adopted$ $score_i = \beta_{02} + (\beta_{12} + \alpha_1) Age + (\beta_{22} + \alpha_2) Gender + \beta_{32} Adopted$

Así que si realmente conocemos los valores de $\alpha_1$ y $\alpha_2$ podemos retrotransformar las estimaciones de $\beta_{12}$ y $\beta_{22}$ a las estimaciones originales que nos interesan. En realidad, esto demuestra que al estandarizar la puntuación de la edad y el género debe en la ecuación, ya que puede introducir dependencias que no existían originalmente. Por ejemplo $\beta_{11} Age$ y $\beta_{21} Gender$ podrían ser originalmente cero en la ecuación no observada, pero son distintos de cero en la ecuación transformada (por ejemplo, habría que tener la suerte fortuita de que $\alpha_1 = -1 \cdot \beta_{11}$ para que el efecto de la edad sea nulo en la ecuación transformada).

Lamentablemente, mi experiencia con los proveedores que ajustan las puntuaciones de esta manera es que no publican el $\alpha$ y el $\alpha$ no se aplican uniformemente a toda la muestra (por ejemplo, las niñas de 10 años tendrían diferentes $\alpha$ que los niños de 12 años). No creo que esta lógica se aplique en esas circunstancias.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X