4 votos

Asignando particiones par para validación cruzada

Esta es una pregunta muy básica acerca de la validación cruzada. Decir que tengo un tamaño de muestra de 2901(o cualquier difíciles de dividir el número). ¿Cómo puedo dividir este en igualdad de particiones (distinto de n=1)? Y qué tamaño debería hacer cada partición?

Por ejemplo, si yo hago cada tamaño de la partición de 300 (que me da aproximadamente 10 particiones), voy a tener algunos puntos de datos que se encuentran en más de una partición, dando una injusta de peso. Es esto aceptable/¿qué hace la gente normalmente hacer acerca de esto?

Por cierto, quería dividir en igualdad de particiones por lo que fácilmente se puede escribir código que va a realizar la validación cruzada para cualquier número de particiones.

2voto

jubo Puntos 626

También puede obtener una muestra de tamaño 2901 de un uniforme de valor de tomar sus valores en {1, 2, ... 10} (10-CV). Este ejemplo se determina al azar de la partición de los datos, con 10 sub-grupos de aproximadamente el mismo tamaño (cada sub-grupo tiene la misma probabilidad de ser extraídas para cada entrenamiento de la observación).

Para cada uno de estos sub-grupos puede calcular un sub-grupo de medida promedio (tales como el MSE, como contraposición a la total sub-grupo squared error) como se sugiere por Mateo.

Yo no creo que las pequeñas diferencias en subsamble tamaños importa mucho si usted toma sub-grupo de los promedios, pero si usted está preocupado siempre puedes repetir este procedimiento de muestreo varias veces para obtener un promedio de 10 CV estimación.

1voto

Matt Puntos 1371

Muchas de las medidas de validación son generalmente 'promedio' sobre la totalidad de la partición para permitir la comparación directa en otros conjuntos de datos. Por ejemplo, el error cuadrático medio de predicción es continua

$$ \text{MSE} = \frac{1}{N} \sum_{i=1}^N (\text{predicción}_i - \text{real}_i)^2. $$

Otros ejemplos son la MAE, el área bajo la curva ROC, Brier score, R cuadrado (generalizada o de otra manera). De esta manera, si la diferencia de tamaño de las particiones es pequeño (es decir, dentro de unos pocos), entonces no debería estar preocupado acerca de cualquier tipo de desequilibrio. En su caso por 10 veces CV, (después de barajar los datos para asegurar que la asignación al azar) me llevaría $\lfloor 2901/10 \rfloor = 290$-tamaño de las particiones y dar el último punto de datos para cualquiera de las particiones. No importa que.

Usted siempre puede hacer su validación medida independientes de tamaño dividiendo por el tamaño de la partición. Por ejemplo, si se calcula logarítmica de puntuación en total, solo hay que dividir el total de la puntuación por el tamaño de la partición.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X