27 votos

Es la cruz de la validación de un adecuado sustituto para el conjunto de validación?

En la clasificación de textos, tengo un conjunto de entrenamiento con alrededor de 800 muestras, y un conjunto de pruebas con cerca de 150 muestras. El conjunto de pruebas nunca se ha utilizado, y a la espera de ser utilizado hasta el final.

Estoy usando la totalidad de 800 muestras del conjunto de entrenamiento, con 10 veces la cruz validar mientras que la optimización y el ajuste de los clasificadores y características. Esto significa que no tienen un conjunto de validación, pero cada carrera de las 10 veces, un conjunto de validación es seleccionado automáticamente.

Después voy a estar satisfecho con todo y quiere entrar en la fase final de la evaluación, voy a entrenar a mi clasificadores sobre la totalidad de 800 muestras. Y la prueba en el 150 de la muestra de prueba.

Es mi entendimiento de que el uso de este tipo de validación cruzada en el texto de clasificación correcta? Es esta práctica válida?

Otra pregunta w.r.t. la validación cruzada es:

en lugar de 10fold, también traté de dejar uno fuera como un indicador general para el rendimiento. Porque para dejar uno fuera, no es posible tener información sobre f1/de precisión/de recordar, me pregunto ¿cuál es la relación entre la precisión de dejar-uno-fuera y métricas de 10fold?

Cualquier conocimiento sería muy apreciada.


Editar:

Esta es una muy buena introducción a la validación cruzada. También se refiere a otros trabajos de investigación.

15voto

pkaeding Puntos 12935

Usted ha hecho correctamente se describe la manera de trabajar con la validación cruzada. De hecho, 'suerte' de tener una razonable conjunto de validación al final, porque a menudo, la validación cruzada se utiliza para optimizar un modelo, pero no "real" se hace la validación.

Como @Simon Stelling dijo en su comentario, la validación cruzada conducirá a la disminución estimada de errores (lo cual tiene sentido porque están constantemente en la reutilización de los datos), pero, afortunadamente, este es el caso para todos los modelos, por lo que, salvo catástrofe (es decir: de los errores se reducen sólo ligeramente por un "mal" del modelo, y más para el "buen" modelo), seleccionando el modelo que se realiza mejor en un crossvalidated criterio, suele ser también el mejor "de verdad".

Un método que se utiliza a veces para corregir un poco por la parte inferior errores, especialmente si usted está mirando para parsimoneous modelos, es seleccionar el modelo más pequeño/método más simple para que la crossvalidated error está dentro de una tarjeta SD de el (crossvalidated) la óptima. Como la validación cruzada, esta es una heurística, por lo que debe utilizarse con cuidado (si esta es una opción: hacer un gráfico de los errores en contra de sus parámetros de ajuste: esto le dará una idea de si usted tiene resultados aceptables)

Dado el sesgo hacia abajo de los errores, es importante no publicar los errores o de otra medida de rendimiento de la la validación cruzada, sin mencionar que estos provienen de la validación cruzada (aunque, la verdad sea dicha: he visto muchas publicaciones que no mencionan que la medida de rendimiento se obtuvo a partir de la comprobación de la actuación en el conjunto de datos original --- para mencionar la validación cruzada en realidad hace que sus resultados pena más). Para usted, esto no será un problema, ya que usted tiene un conjunto de validación.

Una última advertencia: si el ajuste del modelo de resultados en algunos de los competidores cercanos, es una buena idea mirar en sus actuaciones en el conjunto de validación a posteriori, pero no la base de su modelo final de selección en que: usted puede, en el mejor uso de este para calmar su conciencia, pero su "final" modelo debe haber sido recogido antes de que usted mira en el conjunto de validación.

Respecto a su segunda pregunta: yo creo que Simon ha dado su todas las respuestas que necesita en su comentario, pero para completar el cuadro: como a menudo, es el sesgo de la varianza trade-off que entra en juego. Si usted sabe que, en promedio, se llega al resultado correcto (unbiasedness), el precio normalmente es que cada uno de sus cálculos individuales puede estar bastante lejos de ella (alta varianza). En los viejos días, unbiasedness fue el nec plus ultra, en los días actuales, uno ha aceptado, a veces, una (pequeña) sesgo (por lo que ni siquiera saben que el promedio de los cálculos, el resultado será el resultado correcto), si el resultado es menor variación. La experiencia ha demostrado que el equilibrio es aceptable con 10 veces la validación cruzada. Para usted, los prejuicios que sólo sería un problema para el modelo de optimización, ya que se puede estimar que el criterio a posteriori (unbiasedly) en el conjunto de validación. Como tal, hay poca razón para no usar la validación cruzada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X