Históricamente, la estadística ha crecido y se ha desarrollado basándose en los supuestos de la normalidad gaussiana y su ubicuidad en forma de curva en forma de campana, con un rico y amplio conjunto de metodologías que se despliegan a partir de ese supuesto. Hay muchas razones para esta evolución, que están bien articuladas en el reciente libro de Hastie y Efron, Inferencia estadística en la era del ordenador . Una consecuencia de esta suposición de normalidad ubicua es que la desviación de la misma -los valores atípicos- se considera un problema que debe resolverse normalizando, transformando y/o eliminando los valores extremos mediante técnicas como el recorte y la winsorización o transformaciones como el logaritmo natural, la función W de Lambert, el seno hiperbólico inverso y otras, en un esfuerzo por forzar el pdf para que se ajuste a la normalidad.
Los modelos robustos y no paramétricos son otro conjunto de metodologías menos utilizadas en el conjunto de herramientas estadísticas para tratar los datos no conformes. Sin embargo, estos enfoques son menos comprendidos por los profesionales poco sofisticados o, mejor dicho, por los profesionales cuya comprensión comienza y termina con los supuestos gaussianos. Inevitablemente, esto incluye a los miembros de los comités de disertación de muchos desventurados estudiantes de posgrado. Una consecuencia de esta falta de comprensión es que, como es lógico, dado el predominio de los supuestos gaussianos, las soluciones robustas son significativamente menos ricas y están menos desarrolladas en comparación con los enfoques históricamente anteriores, más paramétricos y tradicionales.
Ambos "enfoques" adolecen, si se quiere, de asumir que la normalidad gaussiana es la visión "correcta" de la naturaleza y el comportamiento a pesar de sus irremediables defectos. Estos defectos tienen que ver con el hecho de que los valores extremos y/o las grandes desviaciones de la normalidad no son valores atípicos, sino realidades empíricas. Mandelbrot y Taleb, en su artículo Azar suave vs. Azar salvaje (publicado en Lo conocido, lo desconocido y lo incognoscible en la gestión del riesgo financiero : medición y teoría (Princeton University Press, 2010), señalan que es posible cambiar el punto de vista de los supuestos basados en formas de campana suaves y gaussianas a los supuestos de que los valores extremos excepcionales, los saltos y las discontinuidades se ajustan más a la realidad (que la normalidad) y pueden tomarse como punto de partida para el desarrollo teórico. Su punto de vista relega inevitablemente los datos normales y ordinarios -la masa de información en el pdf- a un papel significativamente menos importante.
Su artículo es una buena introducción a la teoría del valor extremo (TVE), una de las subdisciplinas menos conocidas y comprendidas de la estadística. Lo más importante para el PO es que la EVT ofrece un enfoque completamente diferente para pensar y tratar los datos no normales.
2 votos
¿Por "normalización de datos" quiere decir "transformación a la normalidad"? (Tenga en cuenta que "normalización" suele significar otra cosa; en particular, si mira el
normalization
etiqueta-wiki que dice explícitamente que NO se trata de transformar datos; aunque el término se utiliza a veces de esa manera en algunas áreas de aplicación, es en general menos común que los otros sentidos de normalización y hay términos menos ambiguos/sobrecargados para transmitir ese significado.0 votos
@Glen_b cambió las etiquetas para reflejar su punto
4 votos
¿Qué es una prueba de Shapiro-Wilk "factorizada"?
1 votos
Me pregunto si estos métodos son adecuados. ¿Qué tipo de respuestas da la gente a una encuesta que debe o bien tener una distribución Normal o ser transformable a una distribución Normal? ¿Se les pide que proporcionen medidas numéricas de 90 cosas?
1 votos
Es una convención estándar y una regla empírica asumir la normalidad con respecto a los datos de las encuestas de calificación, pero hay muchos ejemplos de cómo estas escalas pueden divergir de esta suposición. Por ejemplo, Norman Cliff en su libro Análisis de datos multivariantes describe los sesgos que pueden surgir en función de las propiedades psicométricas de la escala utilizada, por ejemplo, de 5 puntos, tipo Likert, de 7 puntos, de 10 puntos o escalas de hasta 100 puntos. Entre ellos se encuentran las distribuciones sesgadas y abultadas (sobre todo en el caso de las escalas de 100 puntos), los efectos finales cuando el enunciado de los anclajes de la escala es demasiado vago, el uso de puntos neutros, etc.
0 votos
En este caso, la investigación se realizó mediante una combinación de escalas demográficas y de Likert. Había 53 preguntas en total, pero medían 15 ítems principales y 15 factores de control. Cuando se crearon las hipótesis, resultaron ser 90 ítems los que se medían, basados en combinaciones de factores de control y de ítems principales.
3 votos
Relacionado : Sobre la utilidad de la prueba de Shapiro-Wilk para comprobar la normalidad de los datos , Sobre el uso de las pruebas t incluso cuando los datos no están distribuidos normalmente , Cómo decidir entre pruebas paramétricas y no paramétricas
0 votos
No puedo comprender el problema si no se especifican los objetivos. El análisis y la interpretación de los datos no pueden ser invocados de la manera que usted visualiza aquí.