Actualmente estoy ajustando un modelo a un conjunto de datos. Para medir la bondad del ajuste estoy utilizando la prueba de chi-cuadrado con
$H_0$ : El modelo se ajusta a los datos ( $\chi^2 \lt \chi^2_{critical}$ )
$H_1$ : El modelo no se ajusta a los datos ( $\chi^2 \gt \chi^2_{critical}$ )
La siguiente figura muestra los puntos de datos en negro y el modelo ajustado en naranja.
Los puntos de datos en negro son incidencias de un evento (revelación de una vulnerabilidad de seguridad) a lo largo del eje temporal. En el momento 1 se han producido 2 eventos en total. En el momento 101 se han producido 160 eventos en total.
Así, $\text{df} = 101-1 = 100$
La curva naranja se obtiene ajustando el modelo logístico alhazmi malaiya (un modelo conocido para modelizar el proceso de descubrimiento de vulnerabilidades) dado por la ecuación
$\Omega(t) = \frac{B}{B\times C\times e^{-A\times B\times t} + 1}$
Los parámetros A, B y C se seleccionan durante el proceso de ajuste para que el modelo describa lo mejor posible los puntos de datos. Por lo tanto, la combinación de parámetros que da como resultado el $\chi^2$ ha sido seleccionado.
$\chi^2$ se calcula utilizando los puntos de datos (negros) como $o_i$ y los valores obtenidos resolviendo la ecuación en el tiempo t como $e_i$ en la fórmula
$\chi^2 = \sum\frac{(o_i - e_i)^2}{e_i}$
Esto me da en mi caso $\chi^2 = 111.8410$ y seleccionando $\alpha = 5\%$ Obtengo un valor crítico de $124.3421$ . En $111.8410 \lt 124.3421$ Acepto mi $H_0$ que afirma que los puntos de datos se distribuyen de acuerdo con el modelo o, en otras palabras, que el modelo describe los datos razonablemente bien.
En el caso anterior, ¿cuál es exactamente el valor P de este $\chi^2$ -¿Prueba?
Según Prueba chi-cuadrado de Pearson el valor P se calcula mediante
$ \text{P-Value} = 1 - \text{chi2cdf}(\chi^2, \text{df})$
En este caso, se obtendría un valor P de $0.0967$ lo que sugeriría un ajuste significativo del modelo. Pero, ¿no debería el valor P de un buen ajuste (un ajuste que se ha hecho especialmente para los datos) ser cercano a 1?
¿Es correcto este cálculo?
Por desgracia, la bibliografía con la que estoy trabajando no explica adecuadamente la metodología utilizada y no consigo reproducir los resultados. Uno de los documentos que utilizan el enfoque anterior es http://www.cs.colostate.edu/~malaiya/pub/issre05.pdf . Su prueba de bondad de ajuste se describe en la última sección de la página 5.