5 votos

La partición de los datos para el k-fold cross validation, que no tienen igualdad de particiones

De La Wikipedia:

En k-fold cross-validation, el original de la muestra es al azar se divide en k igualdad de tamaño de las submuestras.

Estoy trabajando en un 10 veces la validación cruzada para el proyecto. Tengo un conjunto de datos que consta de 76 elementos. Esto significa que no puedo tener el mismo tamaño de las particiones.

¿Cuáles son los enfoques para el resto de los datos (en mi ejemplo 6 los datos)? Hacer caso omiso de ellas, haciendo de datos de 16 elementos, 6 particiones tiene 11 elementos o etc?

10voto

James Puntos 1294

Generalmente el $k$-fold cross validation subconjuntos tienen aproximadamente el mismo tamaño. Sólo es crucial que no se superponen.

Por ejemplo, yo sólo tenía una mirada a lo que WEKA. Digamos que usted tiene $N$ casos y $k$ pliegues, luego $$ r = N \mod k $$ (el resto de $N$ dividido por $k$) es el número de excedente de registros. El primer $r$ particiones se han $\lfloor N/r \rfloor + 1$ registros, los demás sólo $\lfloor N/r \rfloor$

Respecto a tu ejemplo: $$N = 76 $$ $$k = 10 $$ $$ r = N \mod k = 6 $$

Primera $6$ partición tendrá $ \lfloor N/k \rfloor + 1 = 7 + 1 = 8$ registros, los otros $ 7 $.

2voto

Rob Allen Puntos 486

Como Simone dijo que, generalmente, no es esencial para cada pliegue a ser exactamente el mismo tamaño. Sería perfectamente razonable tener seis pliegues que contiene registros de ocho y cuatro que contiene registros de siete cada uno. Eso es probablemente una mejor solución que tener nueve pliegues de tamaño de siete y empujar el exceso en la última de ellas.

10-fold cross validation suele ser una muy opción razonable, pero usted debe ser consciente de que hay un passel de los enfoques relacionados con el (ver este hilo), y algunos de los que podrían mejores opciones, dependiendo de los detalles de su conjunto de datos. Por ejemplo, si tus clases son muy desequilibrada, puede que desee considerar la posibilidad de estratificado de validación cruzada, que intenta distribuir las clases de manera uniforme a través de los pliegues (por ejemplo, si usted tiene 16 ejemplos de la clase a, que está idealmente se extendieron por todo 10 pliegues, no se agrupan a veces #1 y #2).

Algunos otros esquemas, como 5x2 CV, también tienen relativamente buen propiedades si vas a hacer inferencia sobre la validación cruzada de los resultados.

0voto

mpmcfarlane Puntos 86

Puede que desee utilizar kfoldcv función para calcular los tamaños de muestra para los k grupos.

kfoldcv(k, N, nlevel=NULL)

Arguments:
k    number of groups.
N    total sample size.
nlevel   a vector of sample sizes for stratified sampling.

Usted tendrá que instalar el ipred paquete.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X