Tengo algunos datos y algunos modelos que me gustaría validar de forma cruzada.
Este es mi enfoque.
- Tomemos mis datos, que tienen aproximadamente 10.000 filas.
- Genere 10 conjuntos de prueba simulando, con reemplazo, 1.000 filas de los datos originales.
- Para cada uno de esos 10 conjuntos, encaja mis modelos.
- Para cada uno de estos 10 modelos ajustados, pruébelos en el conjunto de datos de 10.000 filas.
- Tome el MSE para cada conjunto, y luego promedie eso a través de los 10 conjuntos. Esa es mi métrica de rendimiento.
¿Hay algún problema con este enfoque? ¿Funciona? Estuve leyendo la página de wikipedia sobre la validación cruzada y no pude encontrar este procedimiento exacto. ¿Tiene algún nombre? Si no es así, ¿cuáles son sus puntos débiles?