La mayoría de las veces cuando la gente habla acerca de las transformaciones de variables (predictoras y variables de respuesta), se discute maneras de tratar a la asimetría de los datos (como la transformación de registro, box y cox transformación, etc.). Lo que yo no soy capaz de entender es por qué la eliminación de la asimetría es considerado tan frecuente en la mejor práctica? ¿Cómo la asimetría de impacto en el rendimiento de los diferentes tipos de modelos como el árbol de base de modelos, modelos lineales y no-lineales de los modelos? Qué tipo de modelos son los más afectados por la asimetría y por qué?
Respuestas
¿Demasiados anuncios?Cuando la eliminación de la asimetría, las transformaciones están tratando de hacer que el conjunto de datos siguen la distribución de Gauss. La razón es simplemente que si el conjunto de datos puede ser transformado para ser estadísticamente lo suficientemente cerca para una Gaussiana conjunto de datos, a continuación, el mayor conjunto de herramientas posibles que están disponibles para su uso. Pruebas como el test de ANOVA, $t$-prueba, $F$-prueba, y muchos otros dependen de los datos teniendo varianza constante ($\sigma^2$) o siguen una distribución Gaussiana.
Hay modelos que son más fuertes (tales como el uso de Levine en lugar de la prueba de Bartlett de la prueba), pero mosts pruebas y modelos que funcionan bien con otras distribuciones requiere que usted sepa lo que la distribución que están trabajando con y normalmente sólo apropiado para una sola distribución.
Esto es sobre todo cierto para los modelos paramétricos. Como Tavrock dijo, de tener una respuesta varaible que no sesgada hace gaussiano aproximación de los parámetros de las estimaciones de trabajo mejor, esto porque simmetric distribución converge mucho más rápido que el sesgada queridos gaussiano. Esto significa que, si usted tiene los datos asimétricos, la transformación se hará más pequeña del conjunto de datos mínimo para utilizar adecuadamente los intervalos de confianza y pruebas de parámetros (intervalos de predicción todavía no es válida, porque incluso si sus datos están ahora simmetric, no se podría decir que es normal, sólo los parámetros de las estimaciones convergerán para gaussiano).
Todo este discurso es acerca acondicionado, distribución de la variable de respuesta, usted podría decir: acerca de los errores. No obstante, si tenemos una variable que parece sesgada cuando usted mira a su incondicional de distribución, que podría significar que tiene una sesgada acondicionado de distribución. el ajuste de un modelo de datos se borrará de su mente.
En los árboles de decisión voy a primer punto de una cosa: no hay ningún punto en la transformación de las sesgada variables explicativas, funciones monótonas y no voy a cambiar una cosa; esto puede ser útil en modelos lineales, pero no en árboles de decisión. Dicho esto, los modelos de CARRITO, el uso de análisis de varianza para realizar escupe, y la varianza es muy sensible a los valores atípicos y los datos asimétricos, esta es la razón por la transformación de su variable de respuesta puede mejorar considerablemente su modelo de precisión.