24 votos

¿Por qué datos sesgados no son preferidos para el modelado?

La mayoría de las veces cuando la gente habla acerca de las transformaciones de variables (predictoras y variables de respuesta), se discute maneras de tratar a la asimetría de los datos (como la transformación de registro, box y cox transformación, etc.). Lo que yo no soy capaz de entender es por qué la eliminación de la asimetría es considerado tan frecuente en la mejor práctica? ¿Cómo la asimetría de impacto en el rendimiento de los diferentes tipos de modelos como el árbol de base de modelos, modelos lineales y no-lineales de los modelos? Qué tipo de modelos son los más afectados por la asimetría y por qué?

15voto

thyme Puntos 173

Cuando la eliminación de la asimetría, las transformaciones están tratando de hacer que el conjunto de datos siguen la distribución de Gauss. La razón es simplemente que si el conjunto de datos puede ser transformado para ser estadísticamente lo suficientemente cerca para una Gaussiana conjunto de datos, a continuación, el mayor conjunto de herramientas posibles que están disponibles para su uso. Pruebas como el test de ANOVA, $t$-prueba, $F$-prueba, y muchos otros dependen de los datos teniendo varianza constante ($\sigma^2$) o siguen una distribución Gaussiana.

Hay modelos que son más fuertes (tales como el uso de Levine en lugar de la prueba de Bartlett de la prueba), pero mosts pruebas y modelos que funcionan bien con otras distribuciones requiere que usted sepa lo que la distribución que están trabajando con y normalmente sólo apropiado para una sola distribución.

9voto

carlo Puntos 31

Esto es sobre todo cierto para los modelos paramétricos. Como Tavrock dijo, de tener una respuesta varaible que no sesgada hace gaussiano aproximación de los parámetros de las estimaciones de trabajo mejor, esto porque simmetric distribución converge mucho más rápido que el sesgada queridos gaussiano. Esto significa que, si usted tiene los datos asimétricos, la transformación se hará más pequeña del conjunto de datos mínimo para utilizar adecuadamente los intervalos de confianza y pruebas de parámetros (intervalos de predicción todavía no es válida, porque incluso si sus datos están ahora simmetric, no se podría decir que es normal, sólo los parámetros de las estimaciones convergerán para gaussiano).

Todo este discurso es acerca acondicionado, distribución de la variable de respuesta, usted podría decir: acerca de los errores. No obstante, si tenemos una variable que parece sesgada cuando usted mira a su incondicional de distribución, que podría significar que tiene una sesgada acondicionado de distribución. el ajuste de un modelo de datos se borrará de su mente.

En los árboles de decisión voy a primer punto de una cosa: no hay ningún punto en la transformación de las sesgada variables explicativas, funciones monótonas y no voy a cambiar una cosa; esto puede ser útil en modelos lineales, pero no en árboles de decisión. Dicho esto, los modelos de CARRITO, el uso de análisis de varianza para realizar escupe, y la varianza es muy sensible a los valores atípicos y los datos asimétricos, esta es la razón por la transformación de su variable de respuesta puede mejorar considerablemente su modelo de precisión.

1voto

user133886 Puntos 8

Creo que esto es mucho un artefacto de la tradición para volver a Gaussianas debido a sus propiedades agradables.

Pero hay alternativas de distribución nice, p. ej. la gamma generalizada que abarca una gran cantidad de diferentes formas de distribución sesgada

1voto

Aksakal Puntos 11351

Creo que no es justo modelado pero nuestros cerebros no están acostumbrados a trabajar con datos altamente sesgados. Por ejemplo, es bien conocido en finanzas conductuales que no somos buenos en la estimación de las probabilidades muy bajas o altas.

0voto

user135273 Puntos 78

Sobre todo de los resultados se basan en hipótesis Gaussianas. Si usted tiene una distribución sesgada, no tienen una distribución gaussiana, así tal vez que deberías probar desesperadamente para convertirlo en eso.

PERO por supuesto, puedes probar con GLM.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X