4 votos

Normalización de los datos (transformación de los datos a la normalidad)

Tengo un conjunto razonablemente grande de datos de la encuesta que hice completar a la gente. Después de ejecutar una prueba de Shapiro-Wilk con factores en los datos, los resultados fueron que 86 de los 90 conjuntos de variables son estadísticamente significativos a p < 0,05 (y 89 a p < 0,1). Los gráficos de cada una de estas 90 variables muestran que son asimétricas a la izquierda.

Cuando se lo comenté a mi director, me dijo que no debía normalizar los datos (transformar los datos a la normalidad), sino realizar pruebas no paramétricas (prueba H, prueba U, etc.).

¿Podría alguien sugerir algún argumento a favor o en contra de la normalización de los datos (transformación de los datos a la normalidad), así como algún artículo sugerido para leer?

2 votos

¿Por "normalización de datos" quiere decir "transformación a la normalidad"? (Tenga en cuenta que "normalización" suele significar otra cosa; en particular, si mira el normalization etiqueta-wiki que dice explícitamente que NO se trata de transformar datos; aunque el término se utiliza a veces de esa manera en algunas áreas de aplicación, es en general menos común que los otros sentidos de normalización y hay términos menos ambiguos/sobrecargados para transmitir ese significado.

0 votos

@Glen_b cambió las etiquetas para reflejar su punto

4 votos

¿Qué es una prueba de Shapiro-Wilk "factorizada"?

5voto

DJohnson Puntos 1347

Históricamente, la estadística ha crecido y se ha desarrollado basándose en los supuestos de la normalidad gaussiana y su ubicuidad en forma de curva en forma de campana, con un rico y amplio conjunto de metodologías que se despliegan a partir de ese supuesto. Hay muchas razones para esta evolución, que están bien articuladas en el reciente libro de Hastie y Efron, Inferencia estadística en la era del ordenador . Una consecuencia de esta suposición de normalidad ubicua es que la desviación de la misma -los valores atípicos- se considera un problema que debe resolverse normalizando, transformando y/o eliminando los valores extremos mediante técnicas como el recorte y la winsorización o transformaciones como el logaritmo natural, la función W de Lambert, el seno hiperbólico inverso y otras, en un esfuerzo por forzar el pdf para que se ajuste a la normalidad.

Los modelos robustos y no paramétricos son otro conjunto de metodologías menos utilizadas en el conjunto de herramientas estadísticas para tratar los datos no conformes. Sin embargo, estos enfoques son menos comprendidos por los profesionales poco sofisticados o, mejor dicho, por los profesionales cuya comprensión comienza y termina con los supuestos gaussianos. Inevitablemente, esto incluye a los miembros de los comités de disertación de muchos desventurados estudiantes de posgrado. Una consecuencia de esta falta de comprensión es que, como es lógico, dado el predominio de los supuestos gaussianos, las soluciones robustas son significativamente menos ricas y están menos desarrolladas en comparación con los enfoques históricamente anteriores, más paramétricos y tradicionales.

Ambos "enfoques" adolecen, si se quiere, de asumir que la normalidad gaussiana es la visión "correcta" de la naturaleza y el comportamiento a pesar de sus irremediables defectos. Estos defectos tienen que ver con el hecho de que los valores extremos y/o las grandes desviaciones de la normalidad no son valores atípicos, sino realidades empíricas. Mandelbrot y Taleb, en su artículo Azar suave vs. Azar salvaje (publicado en Lo conocido, lo desconocido y lo incognoscible en la gestión del riesgo financiero : medición y teoría (Princeton University Press, 2010), señalan que es posible cambiar el punto de vista de los supuestos basados en formas de campana suaves y gaussianas a los supuestos de que los valores extremos excepcionales, los saltos y las discontinuidades se ajustan más a la realidad (que la normalidad) y pueden tomarse como punto de partida para el desarrollo teórico. Su punto de vista relega inevitablemente los datos normales y ordinarios -la masa de información en el pdf- a un papel significativamente menos importante.

Su artículo es una buena introducción a la teoría del valor extremo (TVE), una de las subdisciplinas menos conocidas y comprendidas de la estadística. Lo más importante para el PO es que la EVT ofrece un enfoque completamente diferente para pensar y tratar los datos no normales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X