La regresión y la máquina de aprendizaje que se utilizan en las ciencias naturales para la prueba de hipótesis, estimación de parámetros, y hacer predicciones de los modelos de ajuste a los datos. Sin embargo, cuando tengo un a priori del modelo, no quiero hacer ningún ajuste---por ejemplo, un modelo de un determinista de la física del sistema calculado a partir de primeros principios. Simplemente quiero saber qué tan bien mi modelo coincide con los datos y, a continuación, a comprender qué partes del modelo de contribuir de manera significativa para el partido. Podría alguien que me señale hacia estadísticamente rigurosa manera de hacerlo?
En términos más específicos, supongamos que tengo un sistema físico para que me mide la variable dependiente $y_i$ ($i$ rangos de 1 a $n$, el tamaño de la muestra) bajo diferentes condiciones descritas por tres variables independientes $x_{1,i}$, $x_{2,i}$, e $x_{3,i}$. Aunque el sistema real que generó los datos es complicado, he hecho algunos supuestos simplificadores para derivar un modelo teórico $f$ para el sistema, de tal manera que
$y_i = f(x_{1,i}, x_{2,i}, x_{3,i}) + \epsilon_i$,
donde $f$ es una no lineal (y no linearizable) función de las variables independientes y $\epsilon_i$ es la diferencia entre el modelo-predichos y los valores medidos. $f$ es completamente pre-especificado; no adaptación que se hace y no hay parámetros son estimados. Mi primer objetivo es determinar si $f$ es razonable modelo para el proceso que produce los valores medidos $y_i$.
También he desarrollado modelos simplificados $g(x_{1,i}, x_{2,i})$ e $h(x_{1,i})$, que se anidan en $f$ (si lo que importa en este caso). Mi segundo objetivo es determinar si $f$ coincide con los datos significativamente mejor que el $g$ o $h$, lo que sugiere que las características que lo diferencian del modelo de $f$ a partir de los modelos de $g$ e $h$ juegan un papel importante en el proceso que genera $y_i$.
Ideas tan lejos
Tal vez si hubiera algún modo de determinar el número de parámetros o el número de grados de libertad para mi modelo matemático, sería posible utilizar los procedimientos existentes como una prueba de razón de verosimilitud o AIC comparación. Sin embargo, dada la forma no lineal de $f$ y la ausencia de cualquier obvio parámetros, no estoy seguro de si es razonable asignar parámetros o asumir lo que constituye un grado de libertad.
He leído que las medidas de bondad de ajuste, tales como el coeficiente de determinación ($R^2$), puede ser utilizado para comparar el rendimiento del modelo. Sin embargo, no es claro para mí lo que el umbral para una diferencia significativa entre las $R^2$ valores podría ser. Además, porque no me ajustar el modelo a los datos, la media de los residuos no es cero y puede ser diferente para cada modelo. Por lo tanto, un bien de coincidencia modelo que tiende a la poca frecuencia de los datos de rendimiento tan pobre como un valor de $R^2$ como un modelo que era imparcial, pero que no corresponden a los datos.
También he leído un poco acerca de la bondad de ajuste de las pruebas (por ejemplo, Anderson-Darling), pero como las estadísticas, no es mi campo, no estoy seguro de qué tan bien este tipo de prueba se adapte a mi propósito. Cualquier orientación se agradece.