En algunas literaturas, he leído que una regresión con múltiples variables explicativas, si están en diferentes unidades, necesitan ser estandarizadas. (Estandarizar consiste en restar la media y dividir por la desviación estándar.) ¿En qué otros casos necesito estandarizar mis datos? ¿Hay casos en los que solo debería centrar mis datos (es decir, sin dividir por la desviación estándar)?
+1, estos son buenos puntos que no había considerado. Para mayor claridad, permítame enumerar algunos ejemplos concretos en los que un investigador podría querer combinar variables explicativas antes de ejecutar una regresión, y por lo tanto necesitar estandarizar. Un caso podría ser para investigaciones sobre trastornos del comportamiento en niños; los investigadores podrían obtener calificaciones tanto de los padres como de los maestros, y luego querer combinarlas en una única medida de desajuste. Otro caso podría ser un estudio sobre el nivel de actividad en una residencia de ancianos con autoevaluaciones de los residentes y el número de firmas en las hojas de inscripción para actividades.
15 votos
Una publicación relacionada en el blog de Andrew Gelman.
55 votos
Además de las excelentes respuestas ya dadas, permítanme mencionar que al usar métodos de penalización como la regresión ridge o lasso, el resultado ya no es invariante a la estandarización. Sin embargo, muchas veces se recomienda estandarizar. En este caso, no por razones directamente relacionadas con las interpretaciones, sino porque la penalización tratará a diferentes variables explicativas en una misma línea más equitativa.
7 votos
¡Bienvenido al sitio @mathieu_r! Has publicado dos preguntas muy populares. ¡Por favor considera votar a favor/aceptar algunas de las excelentes respuestas que has recibido a ambas preguntas ;)
6 votos
Hay preguntas similares en CV aquí: Cuándo y cómo usar variables explicativas estandarizadas en regresión lineal, y aquí: Las variables suelen ajustarse (por ejemplo, estandarizarse) antes de hacer un modelo, ¿cuándo es buena idea y cuándo es mala?.
3 votos
Cuando leo esta pregunta y respuesta me recordó a un sitio de usenet en el que me topé hace muchos años faqs.org/faqs/ai-faq/neural-nets/part2/section-16.html Esto da en términos simples algunas de las cuestiones y consideraciones cuando se quiere normalizar/estandarizar/reescalar los datos. No vi que se mencionara en las respuestas aquí. Trata el tema desde una perspectiva más de aprendizaje automático, pero podría ayudar a alguien que llegue aquí.
2 votos
Aquí está el enlace actualizado al blog de Gelman: statmodeling.stat.columbia.edu/2009/07/11/when_to_standar