4 votos

Estimar la media de una variable controlando la edad, etc.: ¿Por qué usar valores medios?

sólo lee este hilo de aquí ( ¿Cómo calculo la media de una variable para diferentes grupos controlando la edad, el sexo, la educación...? ) y lo encontró muy útil! En primer lugar, gracias por eso a los autores.

Tengo una pregunta que está relacionada con la pregunta en el hilo de arriba: En un papel Estoy leyendo que se dice:
"Las medias para cada quintil de hogar se estimaron a partir del intercepto de regresión y los coeficientes que controlan para todas las características sociodemográficas (es decir, edad mediana (5 años), mujer, orden de nacimiento mediano (2º), madres con educación primaria, hacinamiento (3,6- 5 personas ⁄ habitación), el entorno rural, y la provincia más representada (Toliary)), y ajustando la agrupación en el hogar y a nivel de la comunidad".

Habiendo leído el post anterior, entiendo que estaban haciendo una regresión y usando la intercepción y el coeficiente como la media estimada.

PERO 1) ¿por qué están usando mediana edad y mediana orden de nacimiento y sólo la provincia más representada en lugar de un conjunto de variables indicadoras de provincia como en las regresiones anteriores?

Y 2) ¿cómo puedo agruparme a nivel de hogar y de comunidad al mismo tiempo?

Aprecio mucho su ayuda, ya que he estado pensando en esas preguntas desde hace tiempo.

¡GRACIAS!

PD: Estoy usando Stata en caso de que esta información sea necesaria.

1voto

Neal Puntos 316
  1. De un rápido vistazo al papel, parece que esos son meramente los valores de covariables usados para predecir las puntuaciones en los gráficos después de que el modelo fuera estimado. Los autores permiten que la riqueza de HH y la educación materna varíen, manteniendo las otras covariables fijas en los valores medios/modales. Estos números parecen corresponder a los valores medianos/modales de la Tabla 1 (estadísticas resumidas). Si se permite que la provincia varíe, se obtendría un conjunto de gráficos muy similares con las barras todas desplazadas hacia arriba o hacia abajo. A la mayoría de los lectores les preocupan los efectos de la riqueza y la educación, por lo que los autores se centran en cómo cambian las puntuaciones cuando esas dos variables aumentan, para un tipo de estudiante representativo (una niña de cinco años, etc.). Esto también les permite poner las puntuaciones predichas y los coeficientes en el mismo gráfico con dos ejes.

Usted puede hacer algo como esto en Stata con (establecer mpg a la mediana y el maniquí extranjero a la base de cero y permitir que el quintil de peso varíe):

sysuse auto, clear
xtile wq = weight, nq(5)
lab var wq "Weight Quintile"

reg price i.foreign i.wq c.mpg
margins, dydx(wq) post
estimates store betas

reg price i.foreign i.wq c.mpg
margins wq, at((median) mpg (base) foreign) post
estimates store yhats

capture ssc install coefplot
coefplot yhats betas, baselevels xlab(#10) xline(0)

Esto produce predicciones, que son sólo $$ \hat y = \hat \beta_ {q}+(4999.846 -79.08586 \cdot 20)= \hat \beta_ {q}+3418.1288:$$

enter image description here

Puedes conseguir coefplot para darte dos ejes X y barras, pero creo que eso empeora el cuadro, así que no lo hice.

  1. Para la agrupación de dos vías, puedes usar cluster2 , cgmreg o (xt)ivreg2 de la SSC. El xt* es para modelos de datos de panel, los otros para OLS.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X