CONTEXTO: Estoy modelando la relación entre el tiempo (1 a 30) y una VD para un conjunto de 60 participantes. Cada participante tiene su propia serie temporal. Para cada participante estoy examinando el ajuste de 5 funciones diferentes teóricamente plausibles dentro de un marco de regresión no lineal. Una función tiene un parámetro, tres funciones tienen tres parámetros y una función tiene cinco parámetros.
Quiero utilizar una regla de decisión para determinar qué función proporciona el ajuste más "teóricamente significativo". Sin embargo, no quiero premiar el sobreajuste.
El exceso de ajuste parece ser de dos tipos. Una forma es el sentido estándar por el que un parámetro adicional permite explicar un poco más de la varianza aleatoria. El segundo sentido es cuando hay un valor atípico o algún otro efecto sistemático leve, que tiene un interés teórico mínimo. Las funciones con más parámetros a veces parecen capaces de captar estas anomalías y son recompensadas.
Inicialmente utilicé el AIC. Y también he experimentado con el aumento de la penalización de los parámetros. Además de utilizar $2k$ : [ $\mathit{AIC}=2k + n[\ln(2\pi \mathit{RSS}/n) + 1]$ ]; También he probado $6k$ (lo que yo llamo AICPenalizado). He inspeccionado gráficos de dispersión con líneas de ajuste impuestas y las correspondientes recomendaciones basadas en AIC y AICPenalizado. Tanto el AIC como el AICPenalizado proporcionan recomendaciones razonables. Aproximadamente el 80% de las veces coinciden. Sin embargo, en los casos en los que no están de acuerdo, AICPenalised parece hacer recomendaciones que son más significativas desde el punto de vista teórico.
PREGUNTA: Dado un conjunto de ajustes de funciones de regresión no lineal:
- ¿Cuál es un buen criterio para decidir la función de mejor ajuste en la regresión no lineal?
- ¿Cuál es la forma de ajustar la penalización por el número de parámetros?