Asignando particiones par para validación cruzada

Question

Asignando particiones par para validación cruzada

Preguntado el 25 de Julio, 2014: Cuando se hizo la pregunta
179 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Esta es una pregunta muy básica acerca de la validación cruzada. Decir que tengo un tamaño de muestra de 2901(o cualquier difíciles de dividir el número). ¿Cómo puedo dividir este en igualdad de particiones (distinto de n=1)? Y qué tamaño debería hacer cada partición?

Por ejemplo, si yo hago cada tamaño de la partición de 300 (que me da aproximadamente 10 particiones), voy a tener algunos puntos de datos que se encuentran en más de una partición, dando una injusta de peso. Es esto aceptable/¿qué hace la gente normalmente hacer acerca de esto?

Por cierto, quería dividir en igualdad de particiones por lo que fácilmente se puede escribir código que va a realizar la validación cruzada para cualquier número de particiones.

Preguntado el 25 de Julio, 2014 por LXj

Answer 1

2 Respuestas

Answer 2

2voto

jubo Puntos 626

También puede obtener una muestra de tamaño 2901 de un uniforme de valor de tomar sus valores en {1, 2, ... 10} (10-CV). Este ejemplo se determina al azar de la partición de los datos, con 10 sub-grupos de aproximadamente el mismo tamaño (cada sub-grupo tiene la misma probabilidad de ser extraídas para cada entrenamiento de la observación).

Para cada uno de estos sub-grupos puede calcular un sub-grupo de medida promedio (tales como el MSE, como contraposición a la total sub-grupo squared error) como se sugiere por Mateo.

Yo no creo que las pequeñas diferencias en subsamble tamaños importa mucho si usted toma sub-grupo de los promedios, pero si usted está preocupado siempre puedes repetir este procedimiento de muestreo varias veces para obtener un promedio de 10 CV estimación.

Respondido el 25 de Julio, 2014 por jubo (626 Puntos )

Answer 3

1voto

Matt Puntos 1371

Muchas de las medidas de validación son generalmente 'promedio' sobre la totalidad de la partición para permitir la comparación directa en otros conjuntos de datos. Por ejemplo, el error cuadrático medio de predicción es continua

$$ \text{MSE} = \frac{1}{N} \sum_{i=1}^N (\text{predicción}_i - \text{real}_i)^2. $$

Otros ejemplos son la MAE, el área bajo la curva ROC, Brier score, R cuadrado (generalizada o de otra manera). De esta manera, si la diferencia de tamaño de las particiones es pequeño (es decir, dentro de unos pocos), entonces no debería estar preocupado acerca de cualquier tipo de desequilibrio. En su caso por 10 veces CV, (después de barajar los datos para asegurar que la asignación al azar) me llevaría $\lfloor 2901/10 \rfloor = 290$-tamaño de las particiones y dar el último punto de datos para cualquiera de las particiones. No importa que.

Usted siempre puede hacer su validación medida independientes de tamaño dividiendo por el tamaño de la partición. Por ejemplo, si se calcula logarítmica de puntuación en total, solo hay que dividir el total de la puntuación por el tamaño de la partición.

Respondido el 25 de Julio, 2014 por Matt (1371 Puntos )

Asignando particiones par para validación cruzada

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Asignando particiones par para validación cruzada

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: