La respuesta corta es que su conjetura es verdadera cuando y sólo cuando hay un positivo correlación intraclase en los datos . Desde el punto de vista empírico, la mayoría de los conjuntos de datos agrupados muestran la mayoría de las veces una correlación intraclase positiva, lo que significa que en la práctica su conjetura suele ser cierta. Pero si la correlación intraclase es 0, entonces los dos casos que mencionas son igualmente informativos. Y si la correlación intraclase es negativo Entonces, en realidad, es menos información para realizar menos mediciones en más sujetos; en realidad, preferiríamos (en lo que respecta a la reducción de la varianza de la estimación del parámetro) realizar todas nuestras mediciones en un único sujeto.
Estadísticamente hay dos perspectivas desde las que podemos pensar en esto: a efectos aleatorios (o mixto ) modelo que menciona en su pregunta, o un modelo marginal que termina siendo un poco más informativo aquí.
Modelo de efectos aleatorios (mixtos)
Digamos que tenemos un conjunto de $n$ sujetos de los que hemos tomado $m$ medidas de cada uno. A continuación, un modelo simple de efectos aleatorios de la $j$ de la medición de la $i$ El tema podría ser $$ y_{ij} = \beta + u_i + e_{ij}, $$ donde $\beta$ es el intercepto fijo, $u_i$ es el efecto aleatorio del sujeto (con varianza $\sigma^2_u$ ), $e_{ij}$ es el término de error a nivel de observación (con varianza $\sigma^2_e$ ), y los dos últimos términos aleatorios son independientes.
En este modelo $\beta$ representa la media de la población, y con un conjunto de datos equilibrado (es decir, un número igual de mediciones de cada sujeto), nuestra mejor estimación es simplemente la media de la muestra. Por lo tanto, si consideramos que "más información" significa una menor varianza para esta estimación, entonces básicamente queremos saber cómo la varianza de la media de la muestra depende de $n$ y $m$ . Con un poco de álgebra podemos calcular que $$ \begin{aligned} \text{var}(\frac{1}{nm}\sum_i\sum_jy_{ij}) &= \text{var}(\frac{1}{nm}\sum_i\sum_j\beta + u_i + e_{ij}) \\ &= \frac{1}{n^2m^2}\text{var}(\sum_i\sum_ju_i + \sum_i\sum_je_{ij}) \\ &= \frac{1}{n^2m^2}\Big(m^2\sum_i\text{var}(u_i) + \sum_i\sum_j\text{var}(e_{ij})\Big) \\ &= \frac{1}{n^2m^2}(nm^2\sigma^2_u + nm\sigma^2_e) \\ &= \frac{\sigma^2_u}{n} + \frac{\sigma^2_e}{nm}. \end{aligned} $$ Examinando esta expresión, podemos ver que siempre que haya alguna variante del tema (es decir, $\sigma^2_u>0$ ), aumentando el número de sujetos ( $n$ ) hará que ambos términos sean menores, mientras que el aumento del número de mediciones por sujeto ( $m$ ) sólo hará que el segundo término sea menor. (Para ver una implicación práctica de esto en el diseño de proyectos de replicación en varios sitios, véase esta entrada del blog que escribí hace un tiempo .)
Ahora querías saber qué pasa cuando aumentamos o disminuimos $m$ o $n$ manteniendo constante el número total de observaciones. Para ello, consideramos $nm$ para que sea una constante, de modo que toda la expresión de la varianza quede como $$ \frac{\sigma^2_u}{n} + \text{constant}, $$ que es lo más pequeño posible cuando $n$ es lo más grande posible (hasta un máximo de $n=nm$ , en cuyo caso $m=1$ (es decir, tomamos una sola medida de cada sujeto).
Mi respuesta corta se refería a la correlación intraclase, ¿dónde encaja eso? En este modelo simple de efectos aleatorios, la correlación intraclase es $$ \rho = \frac{\sigma^2_u}{\sigma^2_u + \sigma^2_e} $$ (esbozo de una derivación aquí ). Así que podemos escribir la ecuación de la varianza anterior como $$ \text{var}(\frac{1}{nm}\sum_i\sum_jy_{ij}) = \frac{\sigma^2_u}{n} + \frac{\sigma^2_e}{nm} = \Big(\frac{\rho}{n} + \frac{1-\rho}{nm}\Big)(\sigma^2_u+\sigma^2_e) $$ Esto no añade realmente nada a lo que ya hemos visto anteriormente, pero nos hace preguntarnos: puesto que la correlación intraclase es un coeficiente de correlación de buena fe, y los coeficientes de correlación pueden ser negativos, ¿qué pasaría (y qué significaría) si la correlación intraclase fuera negativa?
En el contexto del modelo de efectos aleatorios, una correlación intraclase negativa no tiene realmente sentido, porque implica que la varianza del sujeto $\sigma^2_u$ es de alguna manera negativa (como podemos ver en el $\rho$ ecuación anterior, y como se explica aquí y aquí )... ¡pero las desviaciones no pueden ser negativas! Pero esto no significa que el concepto de correlación negativa intraclase no tiene sentido; sólo significa que el modelo de efectos aleatorios no tiene ninguna forma de expresar este concepto, lo cual es un fallo del modelo, no del concepto. Para expresar este concepto de forma adecuada tenemos que considerar el modelo marginal.
Modelo marginal
Para este mismo conjunto de datos podríamos considerar un modelo denominado marginal de $y_{ij}$ , $$ y_{ij} = \beta + e^*_{ij}, $$ donde básicamente hemos empujado el efecto del sujeto aleatorio $u_i$ de antes en el término de error $e_{ij}$ para que tengamos $e^*_{ij} = u_i + e_{ij}$ . En el modelo de efectos aleatorios consideramos los dos términos aleatorios $u_i$ y $e_{ij}$ para ser i.i.d. pero en el modelo marginal consideramos en cambio $e^*_{ij}$ para seguir una matriz de covarianza diagonal en bloque $\textbf{C}$ como $$\textbf{C}= \sigma^2\begin{bmatrix} \textbf{R} & 0& \cdots & 0\\ 0& \textbf{R} & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0& 0& \cdots &\textbf{R}\\ \end{bmatrix}, \textbf{R}= \begin{bmatrix} 1 & \rho & \cdots & \rho \\ \rho & 1 & \cdots & \rho \\ \vdots & \vdots & \ddots & \vdots \\ \rho & \rho & \cdots &1\\ \end{bmatrix} $$ En palabras, esto significa que bajo el modelo marginal simplemente consideramos $\rho$ para ser la correlación esperada entre dos $e^*$ s del mismo sujeto (suponemos que la correlación entre sujetos es 0). Cuando $\rho$ es positivo, dos observaciones extraídas del mismo sujeto tienden a ser más similares (más cercanas), por término medio, que dos observaciones extraídas al azar del conjunto de datos, ignorando la agrupación debida a los sujetos. Cuando $\rho$ es negativo dos observaciones extraídas del mismo sujeto tienden a ser menos similares (más separados), en promedio, que dos observaciones extraídas completamente al azar. (Más información sobre esta interpretación en la pregunta/respuesta aquí .)
Así que ahora cuando miramos la ecuación para la varianza de la media de la muestra bajo el modelo marginal, tenemos $$ \begin{aligned} \text{var}(\frac{1}{nm}\sum_i\sum_jy_{ij}) &= \text{var}(\frac{1}{nm}\sum_i\sum_j\beta + e^*_{ij}) \\ &= \frac{1}{n^2m^2}\text{var}(\sum_i\sum_je^*_{ij}) \\ &= \frac{1}{n^2m^2}\Big(n\big(m\sigma^2 + (m^2-m)\rho\sigma^2\big)\Big) \\ &= \frac{\sigma^2\big(1+(m-1)\rho\big)}{nm} \\ &= \Big(\frac{\rho}{n}+\frac{1-\rho}{nm}\Big)\sigma^2, \end{aligned} $$ que es la misma expresión de varianza que derivamos anteriormente para el modelo de efectos aleatorios, sólo que con $\sigma^2_e+\sigma^2_u=\sigma^2$ lo que es coherente con nuestra nota anterior de que $e^*_{ij} = u_i + e_{ij}$ . La ventaja de esta perspectiva (estadísticamente equivalente) es que aquí podemos pensar en una correlación negativa intraclase sin necesidad de invocar ningún concepto extraño como una varianza negativa del sujeto. Las correlaciones negativas intraclase encajan de forma natural en este marco.
(Por cierto, sólo un pequeño inciso para señalar que la penúltima línea de la derivación anterior implica que debemos tener $\rho \ge -1/(m-1)$ Si no, toda la ecuación es negativa, ¡pero las varianzas no pueden ser negativas! Por lo tanto, existe un límite inferior en la correlación intraclase que depende del número de mediciones que tengamos por clúster. Para $m=2$ (es decir, medimos cada sujeto dos veces), la correlación intraclase puede llegar hasta $\rho=-1$ para $m=3$ sólo puede bajar a $\rho=-1/2$ y así sucesivamente. Hecho divertido)
Así que finalmente, una vez más considerando el número total de observaciones $nm$ para que sea una constante, vemos que la penúltima línea de la derivación anterior se parece a $$ \big(1+(m-1)\rho\big) \times \text{positive constant}. $$ Así que cuando $\rho>0$ , habiendo $m$ lo más pequeño posible (para que tomemos menos medidas de más sujetos -en el límite, 1 medida de cada sujeto) hace que la varianza de la estimación sea lo más pequeña posible. Pero cuando $\rho<0$ En realidad queremos $m$ para ser como gran como sea posible (para que, en el límite, tomemos todas $nm$ mediciones de un solo sujeto) para que la varianza sea lo más pequeña posible. Y cuando $\rho=0$ la varianza de la estimación es sólo una constante, por lo que nuestra asignación de $m$ y $n$ no importa.
3 votos
+1. Supongo que la configuración más sencilla sería considerar una tarea de estimación de la media de la población $\mu$ donde cada sujeto tiene su propia media $a \sim \mathcal N(\mu, \sigma_a^2)$ y cada medida de este sujeto se distribuye como $x \sim \mathcal N(a, \sigma^2)$ . Si tomamos $n$ mediciones de cada uno de los $m$ temas, entonces ¿cuál es la forma óptima de establecer $n$ y $m$ producto constante dado $nm=N$ .
0 votos
"Óptimo" en el sentido de minimizar la varianza de la media muestral del $N$ de datos adquiridos.
0 votos
Si he entendido bien, su modelo tiene dos variantes $\sigma_a^2$ y $\sigma^2$ y una media poblacional $\mu$ para un total de 3 parámetros. ¿Es eso correcto? Entonces estoy definitivamente de acuerdo en que esta es la configuración más simple, y me encantaría ver una respuesta.
1 votos
Sí. Pero para su pregunta no necesitamos preocuparnos de cómo estimar las varianzas; su pregunta (es decir, la cita en su pregunta) creo que sólo se refiere a la estimación de la media global $\mu$ y parece evidente que el mejor estimador viene dado por la gran media $\bar x$ de todos $N=nm$ puntos de la muestra. La pregunta entonces es: dado $\mu$ , $\sigma^2$ , $\sigma^2_a$ , $n$ y $m$ ¿Cuál es la varianza de $\bar x$ ? Si lo sabemos, podremos minimizarlo con respecto a $n$ dado el $nm=N$ restricción.
0 votos
@amoeba en realidad, creo que también podría ser interesante ver cómo/si la respuesta cambia cuando consideramos los estimadores (MLE) para $\sigma_a^2$ & $\sigma^2$ . En otras palabras, ¿qué parámetros del modelo se estiman mejor aumentando el número de mediciones por sujeto, y cuáles aumentando el número de sujetos, cuando se mantiene fijo el presupuesto total? Intuitivamente la respuesta es obvia, pero quizá no sea tan sencilla de demostrar. De todos modos, me parece bien mantenerlo simple y considerar sólo la varianza de la media general.
1 votos
No sé cómo derivar nada de eso, pero estoy de acuerdo en que parece obvio: para estimar la varianza del error sería mejor tener todos $N$ mediciones de un solo sujeto; y para estimar la varianza del sujeto sería (probablemente) mejor tener $N$ diferentes sujetos con 1 medición cada uno. Sin embargo, no está tan claro lo de la media, pero mi intuición me dice que teniendo $N$ Los sujetos con 1 medida cada uno también serían lo mejor. Me pregunto si eso es cierto...
2 votos
Tal vez algo así: La varianza de las medias muestrales por sujeto debe ser $\sigma^2_a + \sigma^2/n$ donde el primer término es la varianza del sujeto y el segundo es la varianza de la estimación de la media de cada sujeto. Entonces, la varianza de la media de los sujetos (es decir, la media general) será $$(\sigma^2_a + \sigma^2/n)/m = \sigma^2_a/m + \sigma^2/(nm) = \sigma^2_a/m + \sigma^2/N = \sigma^2_a/m + \mathrm{const},$$ que se minimiza cuando $m=N$ .
0 votos
Parece que está bien. Suponemos que todas las muestras iid en este modelo, ¿verdad? Esto es coherente con el hecho de que asumimos que ambas matrices de covarianza son diagonales.