Considere la posibilidad de un clásico de análisis de los datos del problema donde se tiene un resultado $Y_{i}$ y cómo está relacionada con una serie de predictores $X_{i1}, ..., X_{ip}$. El tipo básico de aplicación en mente aquí es que
$Y_{i}$ es un grupo a nivel de resultado, tales como la tasa de criminalidad en la ciudad de $i$.
Los predictores son de nivel de grupo de características tales como las características demográficas de la ciudad de $i$.
El objetivo básico es el de ajustar un modelo de regresión (tal vez con efectos aleatorios, pero se olvidan de que, por ahora):
$$ E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} $$
Hace un poco de dificultad técnica surgen cuando uno (o más) de los predictores son el resultado de una encuesta que tiene diferentes tamaños de muestra para cada unidad? Por ejemplo, supongamos $X_{i1}$ es un resumen de puntuación para la ciudad de $i$ que es el promedio de respuesta a partir de una muestra de individuos de la ciudad de $i$, pero el tamaño de la muestra, estos promedios se basan en son totalmente diferentes:
\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ \vdots & \vdots \\ \end{array}
Dado que las variables predictoras no todos tienen el mismo significado, en cierto sentido, para cada ciudad, me temo que el condicionamiento de estas variables en un modelo de regresión como si todos ellos son "iguales" podría causar que algunas inferencias engañosas.
Hay un nombre para este tipo de problema? Si es así, hay una investigación sobre cómo manejar esto?
Mi pensamiento es tratarlo como un predictor de la variable se mide con el error y hacer algo a lo largo de estas líneas, pero hay heterocedasticidad en los errores de medición, por lo que sería muy complicado. Yo podría estar pensando de esta manera incorrecta o se puede hacer esto más complicado de lo que es, pero cualquier discusión aquí sería útil.