La partición de los datos para el k-fold cross validation, que no tienen igualdad de particiones

Question

La partición de los datos para el k-fold cross validation, que no tienen igualdad de particiones

Preguntado el 18 de Noviembre, 2012: Cuando se hizo la pregunta
1962 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

De La Wikipedia:

En k-fold cross-validation, el original de la muestra es al azar se divide en k igualdad de tamaño de las submuestras.

Estoy trabajando en un 10 veces la validación cruzada para el proyecto. Tengo un conjunto de datos que consta de 76 elementos. Esto significa que no puedo tener el mismo tamaño de las particiones.

¿Cuáles son los enfoques para el resto de los datos (en mi ejemplo 6 los datos)? Hacer caso omiso de ellas, haciendo de datos de 16 elementos, 6 particiones tiene 11 elementos o etc?

Preguntado el 18 de Noviembre, 2012 por damiano

Answer 1

3 Respuestas

Answer 2

10voto

James Puntos 1294

Generalmente el $k$-fold cross validation subconjuntos tienen aproximadamente el mismo tamaño. Sólo es crucial que no se superponen.

Por ejemplo, yo sólo tenía una mirada a lo que WEKA. Digamos que usted tiene $N$ casos y $k$ pliegues, luego $$ r = N \mod k $$ (el resto de $N$ dividido por $k$) es el número de excedente de registros. El primer $r$ particiones se han $\lfloor N/r \rfloor + 1$ registros, los demás sólo $\lfloor N/r \rfloor$

Respecto a tu ejemplo: $$N = 76 $$ $$k = 10 $$ $$ r = N \mod k = 6 $$

Primera $6$ partición tendrá $ \lfloor N/k \rfloor + 1 = 7 + 1 = 8$ registros, los otros $ 7 $.

Respondido el 21 de Enero, 2013 por James (1294 Puntos )

Answer 3

2voto

Rob Allen Puntos 486

Como Simone dijo que, generalmente, no es esencial para cada pliegue a ser exactamente el mismo tamaño. Sería perfectamente razonable tener seis pliegues que contiene registros de ocho y cuatro que contiene registros de siete cada uno. Eso es probablemente una mejor solución que tener nueve pliegues de tamaño de siete y empujar el exceso en la última de ellas.

10-fold cross validation suele ser una muy opción razonable, pero usted debe ser consciente de que hay un passel de los enfoques relacionados con el (ver este hilo), y algunos de los que podrían mejores opciones, dependiendo de los detalles de su conjunto de datos. Por ejemplo, si tus clases son muy desequilibrada, puede que desee considerar la posibilidad de estratificado de validación cruzada, que intenta distribuir las clases de manera uniforme a través de los pliegues (por ejemplo, si usted tiene 16 ejemplos de la clase a, que está idealmente se extendieron por todo 10 pliegues, no se agrupan a veces #1 y #2).

Algunos otros esquemas, como 5x2 CV, también tienen relativamente buen propiedades si vas a hacer inferencia sobre la validación cruzada de los resultados.

Respondido el 20 de Febrero, 2013 por Rob Allen (486 Puntos )

Answer 4

0voto

mpmcfarlane Puntos 86

Puede que desee utilizar kfoldcv función para calcular los tamaños de muestra para los k grupos.

kfoldcv(k, N, nlevel=NULL)

Arguments:
k    number of groups.
N    total sample size.
nlevel   a vector of sample sizes for stratified sampling.

Usted tendrá que instalar el ipred paquete.

Respondido el 26 de Marzo, 2013 por mpmcfarlane (86 Puntos )

La partición de los datos para el k-fold cross validation, que no tienen igualdad de particiones

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

La partición de los datos para el k-fold cross validation, que no tienen igualdad de particiones

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: