Tengo 50 valores establecidos como "verdaderos" en una simulación e intento recuperar estos parámetros "verdaderos" utilizando 2 modelos diferentes. Aquí hay 3 (en lugar de 50) ejecuciones sólo para mostrar la disposición de los datos (estos son inventados para la ilustración).
Run , "true" parameter , estimate model 1 , estimate model 2
1 , 10 , 9.5 , 9.6
2 , 8 , 7.5 , 8.1
3 , 7 , 7.1 , 7.2
Para cada uno de los dos modelos, he calculado el error medio cuadrático (el error es la diferencia entre la "verdad" y la estimación), el error medio absoluto y la correlación de Pearson (correlación entre 50 medidas de "verdad" y 50 estimaciones). Para cada medida de precisión, me gustaría comparar el rendimiento entre los dos modelos. No se cumplen los supuestos de normalidad, por lo que me gustaría utilizar métodos bootstrap.
Dado que los datos están emparejados, he pensado que podría volver a muestrear por corridas (con reemplazo, 50 sorteos y tantas réplicas como sea factible). A continuación, calcularía el estadístico de interés para cada modelo y guardaría la relación de éstos para cada ejecución (RMSE modelo 1/RMSE modelo 2, por ejemplo) y luego determinaría los intervalos de confianza utilizando un método de percentiles (u otro).
También me gustaría utilizar un enfoque directo de comprobación de hipótesis a través del remuestreo. Para ello, barajaría los resultados del modelo dentro de los pares (de modo que los valores estimados para el modelo 1 y el modelo 2 se intercambiarían, por ejemplo) de forma aleatoria y luego calcularía mis diversos ratios como antes. Esto daría un rango esperado dada la hipótesis nula de intercambiabilidad para compararlo con mis valores observados con el fin de obtener un valor p.
He pedido el libro Intro to the Bootstrap de Efron y Tibshirani y leeré las partes que correspondan, pero no he encontrado mucha literatura sobre lo que me gustaría intentar. Tal vez estoy buscando en el lugar equivocado o es un callejón sin salida obvio.
Estoy abierto a cualquier consejo o fallo evidente en mi enfoque.
Gracias