En general, estandarizo mis variables independientes en las regresiones, para poder comparar adecuadamente los coeficientes (así tienen las mismas unidades: desviaciones estándar). Sin embargo, con los datos de panel/longitudinal, no estoy seguro de cómo debo estandarizar mis datos, especialmente si estimo un modelo jerárquico.
Para ver por qué puede ser un problema potencial, suponga que tiene $i = 1, \ldots, n$ individuos medidos a lo largo de $t=1,\ldots, T$ períodos y has medido una variable dependiente, $y_{i,t}$ y una variable independiente $x_{i,t}$ . Si ejecuta una regresión de agrupación completa, entonces está bien estandarizar sus datos de esta manera: $x.z = (x- \text{mean}(x))/\text{sd}(x)$ ya que no cambiará el estadístico t. Por otro lado, si ajusta una regresión no agrupada, es decir, una regresión para cada individuo, entonces debe estandarizar sus datos sólo por individuo, no todo el conjunto de datos (en el código R):
for (i in 1:n) {
for ( t in 1:T) x.z[i] = (x[i,t] - mean(x[i,]))/sd(x[i,])
}
Sin embargo, si ajusta un modelo jerárquico simple con un intercepto variable por individuos, entonces está utilizando un estimador de contracción, es decir, está estimando un modelo entre la regresión agrupada y la no agrupada. ¿Cómo debo estandarizar mis datos? ¿Utilizando todos los datos como en una regresión agrupada? ¿Utilizando sólo los individuos, como en el caso no agrupado?