5 votos

Cómo transformar una distribución de precisión para una parcela de violín

Estoy tratando de encontrar la mejor manera de visualizar los diferentes distribuciones de precisión. La precisión de aquí es un valor en el intervalo [0,1], 0 significa que no precisa, de 1 la máxima precisión.

He diferentes métodos para comparar, así que decidí usar el violín parcelas.

accuracy violin plots

Distribuciones están concentrados cerca de la 1, pero tienen también una larga cola (el primero es cortar a 0,45).

¿Cómo puedo transformar los datos (por ejemplo, en el registro de la escala), con el fin de visualizar mejor las diferencias entre estas parcelas? Me quiero centrar en el intervalo [0.8, 1], pero quiero también a conservar el largo de la cola.

No quiero usar boxplots porque en este caso he visto que no se muestran correctamente las distribuciones (también porque el cuartil inferior ya es el 1).

Puedo añadir también el correspondiente boxplot.

boxplot

Gracias

6voto

Nick Cox Puntos 22819

Tengo varios tarda en esto.

  1. No espere demasiado de la transformación. He leído sus resultados diciendo que el cuartil superior (**no* generalmente se llama el primer cuartil) es 1; por lo tanto >25% de los valores empate a 1 y tiene un pico en la distribución. Uno-a-uno la transformación inevitablemente mapa de un pico a pico. No hay escape de eso. (Ver #4: no puedo ver este tipo de visualización como una buena idea en la presencia de un pico, pero hay algunas estadísticas del gusto y el juicio en el que la vista.) [EDIT: El original fue editado para afirmando que es el cuartil inferior que es 1. Esto intensifica #1 poderosamente.]

  2. La transformación de registro es, sin duda inadecuada, ya que se estira tu cola más. Su inversa, decir exp(), no ayuda mucho en esto ya que es muy cerca lineal en este rango estrecho. Algunos de alto poder, digamos cuarto o más, se debe hacer la distribución un poco más simétrico, pero no puede resolver el #1.

  3. ¿Por qué usted piensa que necesita una transformación? Los resultados son como son. Pensar que necesita una transformación a menudo surge de una idea errónea de que (por ejemplo) los datos deben ser casi normal para hacer mucho con ellos, pero eso es una exageración. Si usted escribe a cabo el análisis de planificar aguas abajo de este, debe ser el mejor asesoramiento de próxima aparición.

  4. No me parece que las visualizaciones en todo convincente, aunque sólo sea porque es difícil de leer en el preciso diferencias entre las distribuciones. Me gustaría tratar muy fino binning, por ejemplo, intervalos de 0.01, y luego mirar a los histogramas usando un registro de la frecuencia de la escala. En mi opinión, un honesto visualización se muestran los picos, como tal, no suave sobre ellos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X