10 votos

Entendiendo la trama de Cullen y Frey

Me gustaría averiguar qué distribución se ajusta mejor a mis datos.

Aquí está el histograma de mis datos :

enter image description here

Utilicé el fitdistrplus en R para tratar de encontrar el mejor ajuste para mis datos. Para tener una idea de qué distribución familiar ajustar, hice lo siguiente:

library(fitdistrplus)
descdist(my_data, discrete=FALSE, boot=500)

Obtengo este gráfico de asimetría y curtosis:

enter image description here

Con estas estadísticas resumidas :

min: 23 max: 1989
mediana: 184
medio: 228.8346
sd estimado: 165,6273
asimetría estimada: 1,706379
curtosis estimada: 11,31023

Así que aparentemente ninguna distribución es una buena candidata para los datos. ¿Cómo interpretar este gráfico? ¿Significa esto que mis datos son una mezcla de varias distribuciones?

EDITAR :

Esta distribución representa las longitudes de los fragmentos de ADN obtenidos en un experimento. Mi objetivo es poder simular el resultado de este experimento simulando los fragmentos resultantes. (es decir, un fragmento simulado está definido por dos posiciones en el genoma separadas por una distancia D). Asumo que la longitud del fragmento observada en el experimento real puede ser descrita por una función de función de densidad o una mezcla de densidades. Estoy buscando la mejor función función a partir de la cual pueda muestrear los valores de D para mis simulaciones.

Hay que tener en cuenta que sólo estoy utilizando una submuestra para ajustar una distribución. Generamos millones de fragmentos. Yo trabajo con una submuestra de 500.000 fragmentos.

2 votos

¿Podría explicar por qué quiere encontrar cualquier ¿fórmula matemática para su distribución de datos? ¿Qué conseguiría con ello?

0 votos

Si sólo busca distribuciones estadísticas candidatas a considerar, tengo un ajustador de distribuciones estadísticas en línea en zunzun.com/Distribuciones estadísticas/1 que podría sugerir algo útil. Pegue los datos en bruto en el "Editor de datos de texto" y pulse el botón "Enviar" para ver lo que encuentra.

0 votos

Una cola como esa hará subir la curtosis poderosamente.

11voto

AdamSane Puntos 1825

Esta parcela solía llamarse comúnmente Diagrama de Pearson (también tuvo varios otros nombres), aunque a veces con la asimetría en lugar de su cuadrado trazado. Se utilizaba mucho antes de que Cullen y Frey escribieran sobre ella (un hecho que reconocen claramente en su texto, aunque su propia mención de haberla visto en un libro escrito a finales de los años 60 sigue subestimando considerablemente su antigüedad).

El objetivo de este gráfico era ayudar a identificar una distribución de Pearson adecuada.

La versión de Cullen y Frey del gráfico no muestra toda la familia de Pearson en el gráfico; no se puede ver en ese gráfico si la asimetría y la curtosis corresponderían a la de una distribución Pearson IV o VI porque dejan la línea divisoria fuera del gráfico (que corresponde a una Gamma inversa desplazada y escalada)

Transformando (apretando y girando) la parcela para que se ajuste a la aquí resulta que está en la región de una Pearson IV, pero puedes ver en el histograma que la asimetría y la curtosis no son una forma suficiente de resumir la distribución - ninguna distribución de Pearson IV tiene esa forma; ni tampoco un par de otras candidatas que corresponderían a esa región aproximada.

Otra cosa que hay que tener en cuenta es que la curtosis de la muestra tiende a subestimar la curtosis de la población, y que la selección por coincidencia de terceras y cuartas cumulantes no suele ser una forma especialmente buena de elegir un modelo.

De hecho, es probable que ninguna distribución simple y comúnmente utilizada se ajuste muy bien. Es posible que se consiga un ajuste adecuado con una mezcla (como sugieres); supongo que se necesitarán al menos 4-5 componentes de alguna familia adecuada.

Sin embargo, hay pocas aplicaciones en las que sea realmente necesario identificar una forma de distribución como ésta -- sería mucho mejor explicar para qué se usaría dicha distribución para porque probablemente haya algo mejor que puedas hacer que esto.

0 votos

Gracias por su respuesta, he editado mi pregunta para explicar mi objetivo.

3voto

Sank6 Puntos 21

Tus datos me parecen una mezcla: parece que hay un componente con una longitud media de fragmento de 100 nt, otro en torno a los 200 nt y otro con una longitud media de fragmento en torno a los 300 nt (puedes ver "baches" en el histograma).

¿Hay algo sobre cómo se preparó la biblioteca que explique por qué hay más de un componente en la mezcla?

Yo ajustaría una mezcla de 3 gaussianos a los datos. Utilizo el paquete R mixtools . Edición: para comprobar la bondad del ajuste, puede probar esta función: https://rdrr.io/cran/AdaptGauss/man/Chi2testMixtures.html

0 votos

Gracias por su respuesta. El experimento es un experimento ATAC-seq en Arabidopsis Thaliana que permite la caracterización de las regiones accesibles de la cromatina. Entonces el primer "bache" corresponde al fragmento sin nucleosoma (cromatina abierta), el segundo a fragmentos con 1 nucleosoma...

0 votos

Eso tiene mucho sentido. Como ha comentado Glen_b más arriba, podría valer la pena probar con 4 o 5 componentes en la mezcla: ya tienes una expectativa clara sobre cuál debería ser la media de cada gaussiana, así que puedes añadir con seguridad más componentes a la mezcla siempre que las medias estimadas sean las esperadas.

0 votos

Como sugieres en tu respuesta, he utilizado el paquete mixtools para ajustar una mezcla de varios gaussianos. Pero no entiendo cómo comprobar la bondad del ajuste de una mezcla gaussiana utilizando el paquete vcd .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X