Yo trabajo en datos de un espectrómetro de masa que produce miles de millones sobre miles de millones de recuento de los histogramas, y necesito una buena forma de probar si estos histogramas son compatibles con uno o varios modelos de distribuciones (Gauss, pesado de cola, multimodal, etc). Los valores atípicos pueden estar presentes en una buena fracción de los histogramas, si no en todos. Los histogramas pueden tener en cualquier lugar de 0 a 10^6 cargos en ellos, y ellos vienen a nosotros ya discretizado, por lo que el histograma es no perder ninguna información con respecto a las observaciones originales.
Como un ingenuo jack-of-all-trades analista de datos formados por los físicos, mi instinto es hacer algo como lo siguiente:
Para cada modelo de distribución,
- la estimación de sus parámetros a través de los momentos o ajuste no lineal utilizando la probabilidad de Poisson (ya que este es el recuento de datos, cada cajón es de Poisson al azar de la variable aleatoria)
- calcular el $\chi^2$ de los datos frente a los armarios de distribución
Luego, con la chi-cuadrado de los valores de los distintos modelos en la mano...
- elegir el modelo con el mejor $\chi^2$ valor
- si $\chi^2$ es demasiado grande (como la que se hace referencia en contra de los teóricos $\chi^2$ distribución con los grados de libertad apropiados), la bandera de la distribución como desviarse significativamente del modelo.
Estaba curioso por saber si los más experimentados estadísticos podría aconsejarme sobre si este procedimiento tiene sentido, limitaciones que pueden surgir, las mejores alternativas, etc. Aquí hay un par de cosas que me he estado preguntando:
- Para histogramas con pocos cargos, siento como que más sentido utilizar la probabilidad de Poisson / de Kullback-Leibler divergencia en la bondad de ajuste de métrica más que la suma de los cuadrados de los utilizados en la $\chi^2$ estadística de prueba. Es más apropiado para utilizar en la instalación, ¿por qué no también en la prueba? Pero yo no conozco a ninguna comúnmente utilizado para la prueba de que funciona de esta manera. Busqué en google alrededor de Poisson histograma de bondad de ajuste de las pruebas y no encontraron nada.
- Tengo la vaga sensación de que debo utilizar algunos AIC tipo de cosa a tener en cuenta el número de parámetros de la distribución, pero tal vez eso es que ya se exhibe en el $\chi^2$ grados de libertad.