depening en n, siempre puede venir para arriba con una diferencia significativa, lo que me hace cuestionar la validez de este enfoque.
Hay dos dificultades.
La primera es general: "significativa" tiene un significado muy específico, y el significado no implica la importancia o relevancia para la práctica de la cuestión a mano. Así que para diferencias significativas usted siempre debe asegurarse de que ellos también son importantes/relevantes para la tarea en cuestión a la mano.
Esto se aplica a todas las pruebas de hipótesis, no sólo para el modelo de optimización.
El procedimiento recomendado consiste en especificar de antemano cuales son las diferencias consided pertinentes. Las estadísticas no pueden ayudar con esto, esta información tiene que venir desde el lado de la aplicación. Una vez que sepas esto, usted puede asegurarse de que su configuración de prueba tiene la energía suficiente, es decir, que las diferencias se consideraron significativas así.
En el contexto de su modelo de optimización que hay una segunda captura. Con la prueba de t pareada a tratar el n Mper como independientes el uno del otro. Pero no son (y no estaban destinadas a ser - ver más abajo).
Configuración adecuada para los pares de t-prueba
La configuración correcta para el emparejado t-prueba se n estadísticamente de forma independiente medido Mper. Esto significa que usted necesita para obtener a n conjuntos de pruebas independientes el uno del otro, es decir, n juegos de N de los casos de prueba con todas las n⋅N de los casos independientes el uno del otro.
Usted, a continuación, obtener predicciones para todos los n⋅N de los casos de prueba por cada uno de sus modelos y, a continuación, hacer los pares (porque ambos modelos predecir exactamente los mismos casos de prueba) t-test.
Obviamente, este procedimiento necesidades de (n+1)⋅N de los casos en total, por lo n veces más de lo que tiene a mano ahora. O, usted podría entrenar sólo en un pequeño 1n+1 fracción de sus casos. (Y esta es la razón por la que nadie lo hace.)
Un segundo sensible de configuración para la prueba de t pareada es hacerlo en una sola ejecución de la validación cruzada. n es, entonces, el número real de casos de prueba y la prueba t-test es un procedimiento válido en virtud de la costumbre de la asunción de la cruz valiation:
que todos los sustitutos de los modelos son equivalentes (es decir, la formación es estable) y las predicciones que por tanto pueden ser agrupados y considerados como una prueba o experimento de validación.
Esta estabilidad de la asunción puede ser fácilmente evaluado por:
repite validación cruzada
Así que una suposición básica para todos los remuestreo esquemas de validación es que el sustituto generado modelos son equvialent (es decir, tienen la misma predicción de rendimiento). Esto implica que si todos los sustitutos son los modelos de prueba con la misma muestra, sus predicciones deben ser iguales.
Y esto es lo que se puede comprobar con la repetición de la validación cruzada: consigue n predicciones para cada uno de sus casos, y cualquier diferencia entre los pronósticos deben ser debido a las diferencias en el sustituto de los modelos. I. e. las diferencias debidas a echanging algunos de los casos de entrenamiento.
En otras palabras, la variación en las predicciones para el mismo caso en todo el sustituto de los modelos de decirle que sus modelos son inestables. (El final Mper no son muy buenas en esta manchado, pero si varían, los modelos son muy inestables).
Ahora, hay un tipo 2 de la varianza de la incertidumbre sobre su Mper. Y el punto crucial donde el t-test va mal es que el n Mper que generaty por repetir la validación cruzada no reflejan la varianza debido al limitado número de casos de prueba.
No lo es, que esta variación no está allí, pero no se puede medir de esta manera, ya que todas las Mper total sobre el mismo exacto de casos de prueba.
Mensaje: no hay ninguna manera de evitar el hecho de que en total, usted sólo tiene N independiente de casos en el conjunto de datos.
Dos puntos más que podemos concluir:
hay un escenario en que el t-test enfoque sería ACEPTAR: si los modelos son inestables, pero tiene tantos casos, que la varianza debido al limitado número real de casos de prueba puede ser descuidado.
Sin embargo, esto se esta practicamente irrelevante, ya que la primera vez que cuidar de estabilidad para mejorar su modelo.
la repetición de validación cruzada ayuda a las estimaciones de rendimiento sólo por un promedio de más de sustituto de los modelos. I. e. sólo la incertidumbre relacionada con el modelo de la inestabilidad es reducido, no el de la incertidumbre debido a que el número real de casos de prueba.