7 votos

¿Cómo evaluar el ajuste de miles de distribuciones?

Tengo miles de temas para cada uno de quienes tengo una distribución gamma cabido, con los parámetros estimados de los datos de cada sujeto. Es fácil mirar la distribución de un tema (dicen qq-plots, etc.) para tener una idea de cómo es el ajuste. Pero, ¿cómo puedo hacer esto a gran escala, para todos los sujetos?

6voto

Aksakal Puntos 11351

Voy a sugerir el uso de representante de las parcelas. Tire de 16 o 20 sujetos, y mostrar sus QQ-parcelas en 4x4 o 4x5 gráfico. A veces, usted puede trazar varias asignaturas en la misma parcela. Esto no sustituye a otras formas de representación de los ataques, pero por otro lado no creo que usted puede evitar este paso. Se utiliza mucho en el panel (longitudinal) análisis de los datos. Usted realmente necesita para ver la representante de las parcelas.

A Ver, Fig.12-1.3 en este libro. No es la distribución, pero la misma idea: mostrar las parcelas de muestreo para los sujetos.

Usted puede obtener de fantasía y dibujar gráficos 3d, por supuesto, o el contorno de las parcelas, donde el eje x es el tema, pero estos a veces son difíciles de analizar visualmente. Pueden revelar importantes patrones de aunque.

ACTUALIZACIÓN También puede mostrar el histograma de la prueba de Kolmogorov-Smirnov de las estadísticas. Es cierto que los valores críticos son caros para calcular, pero las estadísticas en sí es fácil de calcular. Así, usted puede obtener KS-stat para cada tema, y mostrar el histograma de los valores obtenidos. Esto le dará una gran señal visual de cómo la distribución gamma se ajusta en general. Es casi como bootstrapping.

5voto

AusTravel Puntos 6

Espero que entiende su situación y la pregunta correctamente. Considerando su número del conjunto de datos de distribución, visual exploratorio de los enfoques (tales como gráficos QQ, que usted ha mencionado) no son factibles en este caso. Por lo tanto, usted tiene que recurrir a métodos de análisis, tales como la bondad de ajuste (GoF) pruebas, como algunos ya lo han mencionado en los comentarios anteriores.

Puesto que usted ha informado de que los parámetros de la distribución son estimados a partir de datos, supongo que usted ha usado o plan de uso de uno de ajuste de la distribución de los enfoques. Uno de los más populares de ajuste de los enfoques (junto con el de los mínimos cuadrados, a un grado menor) es la estimación de máxima verosimilitud (MLE), que es generalmente fácil de realizar, por ejemplo, utilizando la función fitdistr() de R paquete MASS. Sin embargo, dependiendo de tus datos en particular, el montaje de vía fitdistr() podría no ser tan trivial. Algunas personas prefieren R paquete fitdistrplus, ya que consideran que es más avanzado o útil.

Después de este sencillo paso, es necesario validar los resultados de la estimación, utilizando uno o más de los siguientes GoF pruebas para datos continuos (teniendo en cuenta sus pros y sus contras): chi-cuadrado (a través de binning), el test de Kolmogorov-Smirnov (a través de corrigió las tablas de valores críticos o la simulación de Monte Carlo, que estoy lista aquí sólo para su integridad, como lo que está tratando de evitar este), Anderson-Darling, Lilliefors, Cramér–von Mises y Watson. En términos de rendimiento, el problema se reduce a la realización de un número relativamente grande de no-paramétrico de GoF pruebas, que en mi humilde opinión se puede lograr ya sea a través de hacerlo en un hardware más potente (es decir, el alquiler de Amazon EC2 instancia virtual), o a través de la paralelización de código.

Volver a la esencia de su pregunta, mi idea de los posibles enfoques es el agregado de los resultados, ya sea a través de bootstrapping (de manera similar a la presentada en este excelente respuesta), o algún tipo de abordaje promedio, similar al conjunto de métodos (por ejemplo, echa un vistazo a este artículo de investigación).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X