14 votos

¿Qué puede hacer cuando tienes variables predictivas que se basan en promedios de grupo con tamaños de muestra diferentes?

Considere la posibilidad de un clásico de análisis de los datos del problema donde se tiene un resultado $Y_{i}$ y cómo está relacionada con una serie de predictores $X_{i1}, ..., X_{ip}$. El tipo básico de aplicación en mente aquí es que

  1. $Y_{i}$ es un grupo a nivel de resultado, tales como la tasa de criminalidad en la ciudad de $i$.

  2. Los predictores son de nivel de grupo de características tales como las características demográficas de la ciudad de $i$.

El objetivo básico es el de ajustar un modelo de regresión (tal vez con efectos aleatorios, pero se olvidan de que, por ahora):

$$ E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} $$

Hace un poco de dificultad técnica surgen cuando uno (o más) de los predictores son el resultado de una encuesta que tiene diferentes tamaños de muestra para cada unidad? Por ejemplo, supongamos $X_{i1}$ es un resumen de puntuación para la ciudad de $i$ que es el promedio de respuesta a partir de una muestra de individuos de la ciudad de $i$, pero el tamaño de la muestra, estos promedios se basan en son totalmente diferentes:

\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ \vdots & \vdots \\ \end{array}

Dado que las variables predictoras no todos tienen el mismo significado, en cierto sentido, para cada ciudad, me temo que el condicionamiento de estas variables en un modelo de regresión como si todos ellos son "iguales" podría causar que algunas inferencias engañosas.

Hay un nombre para este tipo de problema? Si es así, hay una investigación sobre cómo manejar esto?

Mi pensamiento es tratarlo como un predictor de la variable se mide con el error y hacer algo a lo largo de estas líneas, pero hay heterocedasticidad en los errores de medición, por lo que sería muy complicado. Yo podría estar pensando de esta manera incorrecta o se puede hacer esto más complicado de lo que es, pero cualquier discusión aquí sería útil.

2voto

Rory MacLeod Puntos 121

El libro "Un heteroscedastic errores en variables modelo estructural con el error de la ecuación" puede descargarse en la página del autor:

http://www.IME.USP.br/~patriota/curriculo-ENG.html#Published_papers

Básicamente se debe tomar en cuenta la variabilidad de ambas variables para evitar estimadores inconsistentes, pruebas de hipótesis no confiable e intervalos de confianza.

0voto

mat_geek Puntos 1367

Una manera de abordarlo sería suponer que cada ciudad tiene una distribución con el mismo % de varianza $σ^2$para las respuestas individuales. Entonces medición promedio % cada ciudad $X_i$para el predictor tendría variación $σ^2/n_i$, donde $n_i$ es el número de individuos en el medio de ciudad $i$. Eso sería una manera simple de tratar con el Heteroskedasticidad. No conozco ningún nombre especial para esta forma del problema de regresión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X