¿Qué sentido tiene hacer una validación cruzada como ésta?

Question

¿Qué sentido tiene hacer una validación cruzada como ésta?

Preguntado el 3 de Abril, 2021: Cuando se hizo la pregunta
72 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo algunos datos y algunos modelos que me gustaría validar de forma cruzada.

Este es mi enfoque.

Tomemos mis datos, que tienen aproximadamente 10.000 filas.
Genere 10 conjuntos de prueba simulando, con reemplazo, 1.000 filas de los datos originales.
Para cada uno de esos 10 conjuntos, encaja mis modelos.
Para cada uno de estos 10 modelos ajustados, pruébelos en el conjunto de datos de 10.000 filas.
Tome el MSE para cada conjunto, y luego promedie eso a través de los 10 conjuntos. Esa es mi métrica de rendimiento.

¿Hay algún problema con este enfoque? ¿Funciona? Estuve leyendo la página de wikipedia sobre la validación cruzada y no pude encontrar este procedimiento exacto. ¿Tiene algún nombre? Si no es así, ¿cuáles son sus puntos débiles?

Preguntado el 3 de Abril, 2021 por Start

Answer 1

2 Respuestas

Answer 2

4voto

Kayton Knax Puntos 21

Sí, este método dará una estimación optimista (léase: mala) del rendimiento de su modelo. Tiene lo que se llama alternativamente fuga de datos o tren prueba sangría . Es algo que las técnicas de validación cruzada bien diseñadas no deben tener.

El problema viene aquí:

Para cada uno de estos 10 modelos ajustados, pruébelos en el conjunto de datos de 10.000 filas.

Tu modelo ya fue entrenado con algunos de estos datos, y ahora estás probando con ellos. Como ya has visto algunos de estos ejemplos, tu modelo funcionará muy bien con ellos. Esto no es representativo del rendimiento en el mundo real (donde las muestras no se ven).

También quería comprobar lo que querías decir aquí:

Para cada uno de esos 10 conjuntos, encaja mis modelos.

Supongo que estás ajustando todos los datos excepto el conjunto de pruebas muestreadas; de lo contrario, se tiene el mismo problema de fuga de datos que el anterior.

Respondido el 3 de Abril, 2021 por Kayton Knax (21 Puntos )

Answer 3

1voto

cbeleites Puntos 12461

Como ya ha explicado AryaMcCarthy, la inclusión de los casos extraídos para el entrenamiento en el conjunto de pruebas da resultados con un sesgo optimista (demasiado buenos para ser verdad).

Si se excluyen los casos de entrenamiento, el procedimiento puede describirse como una variante de la estimación del error fuera de la base. Bootstrap porque dibuja con reemplazo (la validación cruzada dibuja sin reemplazo). Variante porque out-of-bootstrap normalmente extrae tantas muestras como hay en el conjunto de datos. Tenga en cuenta que out-of-bootstrap se repite normalmente mucho más a menudo que sólo 10 veces, pero no hay ningún valor predeterminado en esto.

Respondido el 3 de Abril, 2021 por cbeleites (12461 Puntos )

¿Qué sentido tiene hacer una validación cruzada como ésta?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Qué sentido tiene hacer una validación cruzada como ésta?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: