14 votos

Es la visualización suficiente justificación para la transformación de datos?

Problema

Me gustaría parcela de la varianza explicada por cada uno de 30 parámetros, por ejemplo, como un barplot con un bar diferente para cada parámetro, y la varianza en el eje y:

alt text

Sin embargo, las desviaciones se están fuertemente sesgada hacia los valores pequeños, incluyendo el 0, como se puede observar en el histograma a continuación:

alt text

Si me transformarlos por $\log(x+1)$, será más fácil ver las diferencias entre los valores pequeños (histograma y barplot a continuación):

alt textalt text

Pregunta

Ploteado en un registro de escala es común, pero está conspirando $\log(x+1)$ igualmente razonable?

13voto

jldugger Puntos 7490

Esto ha sido llamado un "comenzó logaritmo" por parte de algunos (por ejemplo, John Tukey). (Para algunos ejemplos, Google john tukey "inicia sesión".)

Es perfectamente correcto uso. De hecho, usted puede esperar a tener que usar un valor distinto de cero al valor inicial de la cuenta para el redondeo de la variable dependiente. Por ejemplo, el redondeo de la variable dependiente al entero más cercano efectivamente lops fuera de 1/12 de su verdadera varianza, lo que sugiere un razonable valor de inicio debe ser de al menos 1/12. (Valor de no hacer un mal trabajo con estos datos. El uso de otros valores por encima de 1 en realidad no cambian la imagen mucho; que acaba de subir todos los valores en la parte inferior derecha de la trama casi de manera uniforme.)

Hay razones más profundas para utilizar el logaritmo (o inicio de sesión) para evaluar la varianza: por ejemplo, la pendiente de una parcela de la varianza en contra de valor estimado en un log-log de la escala de estimaciones de un Box-Cox parámetro para la estabilización de la varianza. Tal poder-ley se ajusta de varianza para algunos relacionados con la variable se observa a menudo. (Este es un empírica de la declaración, no teórica.)

Si su propósito es presentar las desviaciones, proceder con cuidado. Muchas audiencias (aparte de los científicos) no se puede entender un logaritmo, y mucho menos un iniciado. El uso de un valor inicial de 1 al menos tiene el mérito de ser un poco más simple para explicar e interpretar de algún otro valor de inicio. Algo a considerar es la trama de sus raíces, que son las desviaciones estándar, por supuesto. Sería algo parecido a esto:

alt text

Independientemente, si su propósito es explorar los datos, aprender de ellas, se ajustan a un modelo, o la evaluación de un modelo, no dejes que nada se interponga en el camino de encontrar razonable representaciones gráficas de los datos y derivados de los valores como estas desviaciones.

3voto

aron Puntos 174

Puede ser razonable. La mejor pregunta es si el 1 es el número adecuado para agregar. ¿Cuál fue su mínimo? Si era 1 para empezar, entonces usted es la imposición de un determinado intervalo entre los elementos con valor de cero y aquellos con valor 1. Dependiendo del dominio de estudio puede tener más sentido para elegir 0,5 o 1/e como el desplazamiento. La implicación de la transformación a una escala logarítmica es que ahora tiene una relación de escala.

Pero estoy molesta por las parcelas. Me gustaría preguntar si un modelo en el que la mayoría de la varianza explicada en la cola de una distribución sesgada ser considerados como deseables propiedades estadísticas. Yo creo que no.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X