Tengo dos modelos anidados no lineales para los mismos datos y quiero comprobar si el modelo más complejo explica significativamente más varianza. Debido a un paso de suavizado necesario, mis datos no son independientes, por lo que no puedo utilizar pruebas estándar para ello (por ejemplo, una prueba F o una prueba de razón de verosimilitud). Naturalmente, pensé en utilizar una prueba de permutación porque puedo permutar los datos antes del paso de suavizado. De este modo, introduciría en los datos permutados las mismas dependencias que existen en los datos observados, siempre que la distribución nula simulada sea justa. Sin embargo, no consigo encontrar la forma correcta de hacerlo.
Se me ocurre una forma de probar si alguno de los dos modelos explica una varianza significativa. En este caso, mi algoritmo sería:
- Ajuste el modelo a los datos observados suavizados y calcule $R^2$
- Para 10.000 iteraciones, repita los pasos 3-5:
- Permutar aleatoriamente los datos observados (es decir, barajar aleatoriamente los valores del predictor y de la respuesta para destruir su verdadera relación).
- Aplicar suavizado a estos datos permutados para introducir las mismas dependencias que los datos observados. $R^2$ -valor sufre
- Ajuste el modelo a los datos permutados suavizados y calcule $R^2$
- Comparar lo observado $R^2$ -a la distribución nula así construida de $R^2$ -valores para estos datos y modelo
La cuestión es que en este caso es fácil construir la distribución nula, porque la hipótesis nula sostiene que no hay relación entre los predictores del modelo y la variable de resultado, y es obvio cómo podemos permutar los datos para emular esto. (Formalmente, supongo que la hipótesis nula es que los valores de los predictores son intercambiables con los valores de la variable de resultado).
Sin embargo, lo que quiero hacer es estimar una distribución nula para el aumento de $R^2$ de un modelo a otro. La hipótesis nula aquí es que el parámetro añadido en el modelo más complejo no tiene sentido, es decir, que los dos modelos son intercambiables. Sin embargo, me parece que se trata de una hipótesis de intercambiabilidad sobre los modelos, y no sobre (algún aspecto de) los datos, así que no veo qué podría permutar en una prueba de permutación para simular esto. ¿Alguien puede ayudarme? ¿Me estoy perdiendo algo, o es que esto no es posible y tal vez sólo puedo hacer un bootstrap aquí?
Actualización: en la versión original de esta pregunta, no especifiqué que mis modelos eran no lineales. Es decir, no tienen la forma $Y=X\beta+\epsilon$ (donde $X$ es una matriz de predictores, $\beta$ es un vector de coeficientes lineales y $\epsilon$ es ruido aleatorio). En cambio, tienen la forma más general $Y=f(X; \theta)+\epsilon$ donde $\theta$ es un vector de parámetros del modelo. El modelo más sencillo puede obtenerse fijando el valor de uno de los parámetros del modelo más complejo/general.