En las estadísticas de la clase, el profesor habló sobre el interés de transformar sesgada de conjuntos de datos para hacerlos más "normal".
Por lo que he entendido hasta ahora, la idea es que la curva normal tiene buenas propiedades matemáticas que nos gustaría trabajar, así que si tenemos una fuertemente sesgada conjunto de datos, se puede aplicar, en forma no-lineal de transformaciones para hacer su distribución más a una distribución normal.
Un par de ejemplo:
Transformaciones lineales sentido, si tuviéramos los datos en los pies y quería tenerlo en pulgadas, que podría aplicarse $y=12x$ para el conjunto de datos. Que tiene sentido.
Incluso en el caso donde tenemos los pies, pero quiere tratar con pies cuadrados, que es un no-lineal de la transformación, sino el de las unidades de sentido todavía (tal vez "hacer sentido" es sólo una cuestión de grado de familiaridad)
Pero ahora, imaginemos que tenemos un conjunto de datos de precios de los vehículos o de los salarios de los empleados en dólares. ¿Cuál sería el significado de la aplicación de un registro de tranformation a nuestros conjuntos de datos? O a la inversa tranformation? ¿Cuáles son registro de dólares o inversa de dólares?
También, incluso si podemos sacar conclusiones más fácilmente sobre el nuevo conjunto de datos, que tan relevantes son aquellos conlusions para nuestro conjunto de datos original? Podemos simplemente asumir que nuestras conclusiones? De lo relevante que es la media, SD o la varianza de una transformación del conjunto de datos para el conjunto de datos original?
O por ejemplo (estoy viendo a esta pregunta en el lado derecho ahora), parece que puede transformar un conjunto de datos para que sea más fácilmente linealmente separables (tiene sentido geométricamente, supongo).
Pero ¿realmente funcionan? Se siente raro, como "hacer trampa" en un sentido. Estamos jugando con los datos y, a continuación, sacar conclusiones o viniendo para arriba con modelos predictivos basados en que el mal estado de los datos. ¿Cómo funciona eso?