30 votos

¿Por qué los investigadores utilizan la validación cruzada de 10 veces en lugar de probar en un conjunto de validación?

He leído muchos trabajos de investigación sobre la clasificación de sentimientos y temas relacionados.

La mayoría de ellos utilizan una validación cruzada de 10 veces para entrenar y probar los clasificadores. Esto significa que no se realiza ninguna prueba/validación por separado. ¿Por qué?

¿Cuáles son las ventajas/desventajas de este enfoque, especialmente para los que investigan?

4 votos

¿Está seguro de que no se hicieron pruebas por separado?

1 votos

+1. Me he dado cuenta de lo mismo. Muchas veces, la validación cruzada de 10 veces es el resultado final reportado.

20voto

John Richardson Puntos 1197

La razón principal es que el estimador de validación cruzada k-fold tiene una varianza menor que un estimador de conjunto único de retención, lo que puede ser muy importante si la cantidad de datos disponibles es limitada. Si se dispone de un único conjunto de retención, en el que el 90% de los datos se utilizan para el entrenamiento y el 10% para la prueba, el conjunto de prueba es muy pequeño, por lo que habrá mucha variación en la estimación del rendimiento para diferentes muestras de datos, o para diferentes particiones de los datos para formar conjuntos de entrenamiento y de prueba. La validación cruzada k-fold reduce esta varianza al promediar sobre k particiones diferentes, por lo que la estimación del rendimiento es menos sensible a la partición de los datos. Se puede ir aún más lejos repitiendo la validación cruzada k-fold, en la que la validación cruzada se realiza utilizando diferentes particiones de los datos para formar k subconjuntos, y luego tomando también la media sobre ellos.

Sin embargo, hay que tener en cuenta que todos los pasos del procedimiento de ajuste del modelo (selección del modelo, selección de características, etc.) deben realizarse de forma independiente en cada pliegue del procedimiento de validación cruzada, o la estimación del rendimiento resultante tendrá un sesgo optimista.

19voto

ESRogs Puntos 1381

Esto no es un problema si el CV es anidado es decir, todas las optimizaciones, selecciones de características y selecciones de modelos, tanto si utilizan CV como si no, están envueltas en un gran CV.

¿Cómo se compara esto con tener un juego de validación adicional? Aunque el conjunto de validación suele ser una parte más o menos aleatoria de todos los datos, es simplemente un equivalente a una iteración de CV. En este sentido, es en realidad un método peor, ya que puede estar fácilmente sesgado por un conjunto de validación seleccionado (con suerte) o escogido a dedo.

La única excepción son las series temporales y otros datos en los que el orden de los objetos es importante, pero requieren un tratamiento especial en cualquier caso.

11voto

Loren Pechtel Puntos 2212

[EDITADO a la luz del comentario]

Creo que hay un problema si se utilizan los resultados de la CV para seleccionar entre varios modelos.

La CV permite utilizar todo el conjunto de datos para entrenar y probar un modelo/método, al tiempo que se puede tener una idea razonable de su grado de generalización. Pero si se comparan varios modelos, mi instinto es que la comparación de modelos utiliza el nivel adicional de aislamiento de entrenamiento y prueba que ofrece la CV, por lo que el resultado final no será una estimación razonable de la precisión del modelo elegido.

Así que supongo que si creas varios modelos y eliges uno basándote en su CV, estás siendo demasiado optimista con lo que has encontrado. Se necesitaría otro conjunto de validación para ver qué tan bien generaliza el ganador.

1 votos

Gracias. Así es. Pero mi pregunta se refería especialmente a por qué los trabajos de investigación carecen de una validación final. ¿Existe una razón adecuada? ¿Se debe a que hay menos datos o a que el CV hace un buen trabajo y no se necesita una validación por separado?

5 votos

El enfoque de la división de datos es muy ineficiente. Hasta que los conjuntos de entrenamiento y de prueba sean enormes, el error cuadrático medio para una estimación del rendimiento futuro probable de un modelo predictivo es menor con el bootstrapping o con 100 repeticiones de validación cruzada de 10 veces, suponiendo que los procedimientos de remuestreo tuvieran acceso a todos los pasos de modelado que implicaban $Y$ . Utilice la división de datos cuando también necesite validar el proceso de medición, el instrumento de encuesta u otros procedimientos relacionados con el significado de los datos. Un buen uso de la división de datos es cuando la instrumentación varía según el país.

9voto

cbeleites Puntos 12461
  • Según mi experiencia, la razón principal suele ser que no se tienen suficientes muestras.
    En mi campo (clasificación de muestras biológicas/médicas), a veces se mantiene un conjunto de pruebas por separado, pero a menudo sólo comprende unos pocos casos. En ese caso, los intervalos de confianza suelen ser demasiado amplios para ser útiles.

  • Otra ventaja de la validación cruzada repetida/reiterada o de la validación fuera de la base es que se construye un grupo de modelos "sustitutos". Se supone que son iguales. Si no lo son, los modos son inestables. En realidad, se puede medir esta inestabilidad (con respecto al intercambio de unos pocos casos de entrenamiento) comparando los propios modelos sustitutos o las predicciones que hacen diferentes modelos sustitutos para el mismo caso.

  • Este trabajo de Esbensen y Geladi ofrece una buena discusión sobre algunas limitaciones de la validación cruzada.
    Puedes ocuparte de la mayoría de ellos, pero un punto importante que no puede ser abordado por la validación de remuestreo es la deriva, que está relacionada con el punto de mbq:

    La única excepción son las series temporales y otros datos en los que el orden de los objetos es importante

    La deriva significa que, por ejemplo, la respuesta/calibración real de un instrumento cambia lentamente con el tiempo. Por tanto, el error de generalización para casos desconocidos puede no ser el mismo que para casos desconocidos futuro casos. Se llega a instrucciones como "rehacer la calibración diaria/semanal/..." si se encuentra desviación durante la validación, pero esto necesita conjuntos de prueba adquiridos sistemáticamente más tarde que los datos de entrenamiento.
    (Podría hacer divisiones "especiales" que tengan en cuenta el tiempo de adquisición, si su experimento está planificado de forma acorde, pero normalmente esto no cubrirá tanto tiempo como el que querría probar para la detección de la deriva)

2voto

Zev Eisenberg Puntos 2839

¿Por qué debemos hacer una validación cruzada en lugar de utilizar un conjunto de validación independiente?

Aurélien Géron habla de ello en su libro

Para evitar "desperdiciar" demasiados datos de entrenamiento en los conjuntos de validación, una técnica común es utilizar la validación cruzada.

En lugar de otros valores de k, ¿por qué podemos preferir utilizar k=10 en la validación cruzada?

Para responder a esto, en primer lugar, me gustaría dar las gracias a Jason Brownlee, PhD para su gran tutorial en k-fold Cross-Validation. Cito uno de sus libros citados.

Kuhn & Johnson habló sobre el elección del valor k en su libro .

La elección de k suele ser 5 o 10, pero no hay ninguna regla formal. A medida que k aumenta, la diferencia de tamaño entre el conjunto de entrenamiento y los subconjuntos de sub-conjuntos de remuestreo se reduce. A medida que esta diferencia disminuye, el sesgo de la técnica es menor (es decir, el el sesgo es menor para k=10 que k= 5 ). En este contexto, el sesgo es la diferencia entre los valores estimados y reales del rendimiento

Entonces, uno puede decir que por qué no usamos la validación cruzada de dejar fuera (LOOCV) ya que el valor de k es máximo allí y por lo tanto, el sesgo será menor allí. En ese libro, también han hablado de por qué podemos preferir 10 veces CV en lugar de preferir LOOCV.

Desde un punto de vista práctico, los valores más grandes de k son más computacionalmente más pesados. En el extremo, LOOCV es más computacional porque requiere tantos ajustes del modelo como puntos de puntos de datos y cada ajuste del modelo utiliza un subconjunto que es casi del mismo tamaño del conjunto de entrenamiento. Molinaro (2005) encontraron que el leave-one-out y el k=10 veces la validación cruzada arrojó resultados similares, lo que indica que k= 10 es más atractivo desde el punto de vista de la computacional. También, valores pequeños de k, por ejemplo 2 o 3, tienen un sesgo alto pero son muy eficientes desde el punto de vista computacional.

He leído muchos trabajos de investigación sobre la clasificación de sentimientos y temas relacionados. La mayoría de ellos utilizan la validación cruzada de 10 veces para entrenar y probar los clasificadores. Eso significa que no se hace ninguna prueba/validación por separado. ¿Por qué?

Si no utilizamos la validación cruzada (CV) para seleccionar uno de los múltiples modelos (o no utilizamos la CV para afinar los hiperparámetros) No es necesario hacer una prueba por separado. La razón es que el propósito de hacer una prueba separada se cumple aquí en CV (por uno de los k pliegues en cada iteración). En diferentes hilos de SE se ha hablado mucho de esto. Usted puede comprobar.

Al final, no dudes en preguntarme si algo de lo que he escrito no te queda claro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X