5 votos

¿Qué debería ser un consejo de transformación de registro?

Estoy debido a enseñar un taller sobre estadísticas en una semana o dos, y uno de los temas que me cubrirá me molesta. La razón por la que me molesta, es que los consejos que veo, tanto en los libros de texto y de aquí a menudo en StackExchange, frascos con mi propia intuición. Así que, posiblemente, mi propia intuición que hay que arreglar antes de dar este taller.

La pregunta que tengo que respecta a la transformación de la no-normalidad de los datos. Parece común a recomendar que no normal de los datos a ser transformados antes de utilizar una prueba paramétrica (por ejemplo, t-test), con el fin de cumplir con la normalidad de los requisitos. En primer lugar, por supuesto, si la muestra es lo suficientemente grande (en comparación con el skew), hemos CLT, de manera que la transformación parece superfluo desde la perspectiva de la "satisfacción de los supuestos de normalidad". Pero lo que no encaja conmigo es que es posible, por ejemplo, para iniciar la transformación de dos grupos diferentes y encontrar que sus respectivos significa en realidad el intercambio de lugares (por lo que la media más alta se convierte en la más baja significa, etc), que nos llevaría a exactamente el opuesto a la conclusión de que tenemos antes de la transformación.

¿Qué es el consejo general para la gestión de este trade-off? Mi intuición es que usted debe iniciar la sesión de transformación donde el comportamiento de la DV parece que debería ser logarítmica, etc, pero no si usted no puede justificar. Aunque entiendo que una mayor distribución simétrica con frecuencia conduce a una más significativo decir.

Supongo que estoy buscando tres cosas: (i) es mi intuición derecho que log-la transformación que debe hacerse con extrema precaución (y con mayor relación con el sentido último de la la-registro de los datos transformados/medios), (ii) hacer que otros se sienten que los consejos que da a menudo es demasiado conservador en ese sentido, (iii) hacer que la gente por ahí no tiene claro limpia directrices que se puede dar a un montón de NO-estadísticos como cuando es una cosa razonable de hacer? Alguna idea de cómo comunicar la idea, o construir una intuición para ellos sería muy apreciada.

Gracias!

3voto

EdM Puntos 5716

Además de la magnífica tratamiento proporcionado por @IrishStat y otros en esta Cruz Validado página y que hace referencia en su respuesta a la presente página, quiero agregar un par de reflexiones basadas en el desafío de presentar este para no estadísticos (como yo, al menos).

Como estoy seguro que usted sabe, la cuestión importante no es a menudo la distribución de la variable dependiente o de las distribuciones de las variables independientes. Lo que normalmente importa es la distribución de los errores residuales después de la colocación de un modelo (incluso el simple modelo implícito en un t-test).

He visto que esta distinción entre las distribuciones de las variables y las distribuciones de los errores confundirse con frecuencia, debido a que muchas de las presentaciones de la base de la regresión lineal, parecen empezar con una hipótesis de normalidad de las distribuciones de las variables independientes y dependientes de sí mismos. Puede haber algo de valor pedagógico a partir de esta suposición, pero deja la impresión errónea de que las variables deben tener distribuciones normales antes de su análisis. Pero en principio, si un dependiente y una variable independiente del mismo modo, distribuciones sesgadas, no hay necesariamente un problema con una regresión en su original escalas.

Así que una recomendación es ser un poco más preciso acerca de lo que quieres decir cuando dices "registro de transformación donde el comportamiento de la DV parece que debería ser logarítmica." El comportamiento que importa es el error residual en la escala de la variable. Si se espera que el error residual a ser proporcional a la magnitud del valor de la variable dependiente, entonces usted probablemente debería registro de transformación. Esto es a menudo el caso con muchos tipos de análisis de laboratorio que he realizado.

Una segunda recomendación es considerar la posibilidad de pensar un poco diferente acerca de variables independientes y dependientes. Si usted está tratando de construir un modelo lineal, que quieran trabajar en escalas donde no es tan lineal como sea posible, una relación de los cambios en las variables independientes de los cambios en la variable dependiente. Así que si usted está esperando los errores residuales proporcional a la magnitud de la variable dependiente y por lo tanto son de registro-la transformación de la misma, usted puede necesitar para transformar las variables independientes de alguna manera a proporcionar tales lineal de las relaciones.

Una tercera recomendación es no considerar este un todo-o-nada elección durante las primeras etapas de la exploración de datos. Si "registro de transformación de dos grupos diferentes y encontrar que sus respectivos significa en realidad el intercambio de lugares", a continuación, usted ha aprendido algo muy importante acerca de la naturaleza de los datos que requiere estudio adicional. Si hubiera seguido un estricto transformar o no la regla, no han descubierto este.

1voto

Owen Fraser-Green Puntos 642

Las transformaciones son como las drogas ... algunas son buenas para ti y otras no. Mire mi respuesta a una pregunta similar aquí ¿ Cuándo (y por qué) tomar el registro de una distribución (de números)?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X