10 votos

Cómo calcular la relación de "datos utilizados en el análisis" y "guardado de los datos de validación" de un conjunto de muestras?

Proporciona un tamaño de muestra S que pienso usar para los datos de la predicción. ¿Cuáles son algunas de las formas de dividir los datos para que yo uso algunos de establecer un modelo, y el resto de datos para validar el modelo?

Sé que no es en blanco y negro respuesta a esto, pero sería interesante saber algunas "reglas de oro" o utiliza generalmente proporciones. Sé que en la universidad, uno de nuestros profesores se utiliza para decir que el modelo de 60% y validar en un 40%.

7voto

Haydar Puntos 699

Así como usted dice que no es en blanco y negro de respuesta. Por lo general no es dividir los datos en 2 partes, pero el uso de métodos como la k-fold cross validation lugar.

En k-fold cross validation dividir los datos aleatoriamente en k partes y adaptarse a su modelo de k-1 de las partes y de la prueba de los errores de la izquierda parte. Repite el proceso k veces dejando a cada uno la parte de montaje de uno por uno. Usted puede tomar la media de error de cada uno de los k iteraciones como una indicación de error del modelo. Esto funciona muy bien si se quiere comparar la capacidad predictiva de los diferentes modelos.

Una forma extrema de k-fold cross validation es la generalización de la validación cruzada donde usted acaba de salir de un punto de datos para probar y ajustar el modelo a todo el resto de los puntos. A continuación, repita el proceso n veces dejando fuera a cada punto de datos uno por uno. Generalmente prefiero k-fold cross validation sobre la generalización de la validación cruzada ... sólo una elección personal

5voto

ESRogs Puntos 1381

1:10 prueba:tren relación es popular porque se ve redonda, 1:9 es popular debido a que de 10 veces CV, 1:2 es popular porque es también ronda y vuelve a montar bootstrap. A veces uno tiene una prueba de que algunos de los datos de los criterios específicos, por ejemplo el año pasado para las pruebas, años antes de la formación.

La regla general es: el tren debe ser bastante grande por lo que la precisión no bajan considerablemente, y la prueba debe ser lo suficientemente grande como para silenciar a las fluctuaciones aleatorias.

Todavía prefiero CV, ya que le da también una distribución de error.

5voto

Scott Cowan Puntos 156

Realmente depende de la cantidad de datos que tiene, el coste específico de los métodos y exactamente cómo usted quiere que su resultado.

Algunos ejemplos:

Si usted tiene pocos datos, es probable que desee utilizar la validación cruzada (k-fold, leave-one-out, etc.) El modelo probablemente no tendrán recursos para entrenar y probar de todos modos. Son buenas maneras de obtener el máximo provecho de sus datos

Usted tiene un montón de datos: usted probablemente desee tomar un razonablemente grande de la prueba de conjunto, asegurando que habrá pocas posibilidades de que algún extraño muestras le dan a la parte de la varianza de los resultados. La cantidad de datos que debe tomar? Esto depende totalmente de sus datos y el modelo. En reconocimiento de voz, por ejemplo, si usted podría tomar demasiado de datos (digamos 3000 oraciones), los experimentos pueden tomar varios días, como en tiempo real factor de 7-10 es común. Si usted tomaría demasiado poco, demasiado dependiente de los altavoces que usted está eligiendo (que no están permitidos en el conjunto de entrenamiento).

Recordar también, que en muchos casos es bueno tener una validación/desarrollo demasiado!

4voto

Matthew Schinckel Puntos 15596

Como una extensión de k veces la respuesta, la "costumbre" elección de k es 5 o 10. El leave-one-out método tiene una tendencia a producir los modelos que son demasiado conservadores. FYI, aquí es una referencia en el hecho de:

Shao, J. (1993), el Modelo Lineal de Selección por Validación Cruzada, la Revista de la American La Asociación Estadística, Vol. 88, Nº 422, pp 486-494

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X