10 votos

Medir la bondad de ajuste en un modelo que combina dos distribuciones

Tengo datos con un doble pico que estoy tratando de modelar, y hay suficiente superposición entre los picos que no puedo tratarlos de forma independiente. Un histograma de los datos podría parecerse a algo como esto:

alt text

He creado dos modelos para esto: uno utiliza dos distribuciones de Poisson, y el otro utiliza dos distribuciones binomiales negativas (para tener en cuenta la sobredispersión). ¿Cuál es la manera apropiada de decir qué modelo se ajusta más a los datos?

Mi pensamiento inicial es que podría usar una prueba de Kolmogorov-Smirnov para comparar cada modelo con los datos, y luego hacer una prueba de proporción de probabilidad para ver si uno encaja significativamente mejor. ¿Tiene esto sentido? Si es así, no estoy exactamente seguro de cómo realizar la prueba de la proporción de probabilidad. ¿Es el chi-cuadrado apropiado, y cuántos grados de libertad tengo?

Si ayuda, algún código R (muy simplificado) para los modelos podría parecerse a esto:

## inital data points
a <- read.table("data")

#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)

#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)

#here's where I'd do some sort of likelihood ratio test
# . . .

Edición: Aquí hay una imagen que puede explicar mejor los datos y las distribuciones que estoy ajustando. Está totalmente claro en la visualización que el segundo modelo (usando el binomio negativo dist para tener en cuenta la sobredispersión) encaja mejor. Sin embargo, me gustaría mostrar esto cuantitativamente. alt text

(rojo - datos, verde - modelo)

17voto

AdamSane Puntos 1825

math.PR Probabilidad

  • La teoría de la probabilidad se utiliza en la teoría de la información, los códigos de corrección de errores, los algoritmos de compresión, el aprendizaje automático y los algoritmos probabilísticos.
  • Los físicos utilizan la probabilidad en la Mecánica Cuántica y la Mecánica Estadística
  • La teoría de colas se utiliza para analizar las redes de telecomunicaciones.
  • Los procesos estocásticos, como los procesos de ramificación y los HMM, se utilizan para modelar la especiación y la extinción (el Árbol de la Vida), la evolución de las secuencias moleculares, la proliferación celular y otras cosas en biología. Por ejemplo, véase `Branching Processes in Biology', de Kimmel y Axelrod.
  • He aquí un dato algo frívolo (pero que preocupa mucho a los casinos): el número de veces que hay que barajar una baraja antes de que se aleatorice de verdad.
  • utilizado en el mundo de las finanzas, la economía y los juegos de azar a diario.
  • La generación de números aleatorios es un componente clave de muchos algoritmos eficientes, y también juega un papel importante en la criptografía.
  • El cálculo estocástico se utiliza para fijar el precio de las opciones (fórmula de Black-Scholes) y para cubrir el riesgo. (Por supuesto, no siempre se aplica con acierto...)
  • Las cadenas de Markov se utilizan para encontrar objetos uniformemente aleatorios. Esto, entre otras cosas, hace que el diseño de un experimento sea más justo y que los cripto-sistemas basados en diseños sean más seguros.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X