17 votos

¿Es una buena práctica estandarizar los datos en una regresión con datos de panel/longitudinal?

En general, estandarizo mis variables independientes en las regresiones, para poder comparar adecuadamente los coeficientes (así tienen las mismas unidades: desviaciones estándar). Sin embargo, con los datos de panel/longitudinal, no estoy seguro de cómo debo estandarizar mis datos, especialmente si estimo un modelo jerárquico.

Para ver por qué puede ser un problema potencial, suponga que tiene $i = 1, \ldots, n$ individuos medidos a lo largo de $t=1,\ldots, T$ períodos y has medido una variable dependiente, $y_{i,t}$ y una variable independiente $x_{i,t}$ . Si ejecuta una regresión de agrupación completa, entonces está bien estandarizar sus datos de esta manera: $x.z = (x- \text{mean}(x))/\text{sd}(x)$ ya que no cambiará el estadístico t. Por otro lado, si ajusta una regresión no agrupada, es decir, una regresión para cada individuo, entonces debe estandarizar sus datos sólo por individuo, no todo el conjunto de datos (en el código R):

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

Sin embargo, si ajusta un modelo jerárquico simple con un intercepto variable por individuos, entonces está utilizando un estimador de contracción, es decir, está estimando un modelo entre la regresión agrupada y la no agrupada. ¿Cómo debo estandarizar mis datos? ¿Utilizando todos los datos como en una regresión agrupada? ¿Utilizando sólo los individuos, como en el caso no agrupado?

11voto

dan90266 Puntos 609

No veo que la estandarización sea una buena idea en la regresión ordinaria o con un modelo longitudinal. Hace que las predicciones sean más difíciles de obtener y no resuelve un problema que necesita ser resuelto, normalmente. Y qué pasa si tienes $x$ y $x^2$ en el modelo. ¿Cómo se estandariza $x^2$ ? ¿Qué pasa si tienes una variable continua y una binaria en el modelo? ¿Cómo se estandariza la variable binaria? Desde luego, no por su desviación estándar, lo que haría que las variables de baja prevalencia tuvieran mayor importancia.

En general, es mejor interpretar los efectos del modelo en la escala original de $x$ .

0 votos

@Frank Harrell - buenos puntos sobre los problemas asociados con las condiciones que usted esboza, pero si uno tiene todas las variables continuas con diferentes escalas, entonces ¿no es la estandarización la única manera de comparar las pendientes?

1 votos

@Frank, supongo que depende del tipo de modelos que estés ejecutando, pero la estandarización de las variables predictoras suele ser útil. Centrarlas significa que el intercepto se puede interpretar como el resultado medio predicho y la importancia relativa de los diferentes predictores se hace más evidente. Suelo dejar los predictores binarios, pero a veces merece la pena considerar otras opciones de escalado. Por último, en algunos casos, tener predictores con desviaciones estándar muy diferentes puede dar lugar a problemas de cálculo/convergencia.

2 votos

No tengo claro cómo esa estandarización añade claridad en lugar de restarla. Además, la media no es la opción obvia para centrar (¿mediana? ¿modo? ¿el percentil 43? la elección de la medida de dispersión es aún más problemática) La importancia relativa puede juzgarse de muchas maneras, por ejemplo, parcial $R^2$ , parcial $\chi^2$ , efectos de covarianza de rango intercuartil, ... Además, no he encontrado que la estandarización sea útil desde el punto de vista computacional cuando se utilizan rutinas matemáticas matriciales modernas como las que utiliza R bajo el capó. Kenny nota que la estandarización no es la forma de comparar las pendientes.

0voto

Kunal Pawar Puntos 137

Existe una alternativa a la estandarización para llevar las variables medidas con diferentes escalas a la misma métrica. Se denomina Proporción de Escala Máxima (POMS), y no se altera con las distribuciones multivariantes como suele hacer la transformación z.

Todd Little recomienda explícitamente POMS en lugar de la estandarización z en su libro sobre el modelado de ecuaciones estructurales longitudinales. La transformación en Z conlleva problemas adicionales cuando se trata de datos longitudinales, véase aquí: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X