20 votos

Media(puntuaciones) vs Puntuación(concatenación) en la validación cruzada

TLDR:

Mi conjunto de datos es bastante pequeño (120) muestras. Mientras que hace 10-fold cross validation, debo:

  1. Recoger los resultados de cada prueba de pliegue, concatenar en un vector, y luego calcule el error en este vector de predicciones (120 muestras)?

  2. O debería , en lugar de calcular el error en los resultados puedo obtener en cada pliegue (con 12 muestras por veces), y a continuación, obtener mi último error estimado como el promedio de las 10 veces el error de estimación?

Hay trabajos científicos que sostienen que las diferencias entre estas técnicas?


Antecedentes: la Potencial Relación de Macro/Micro puntuaciones en varias etiquetas de clasificación:

Creo que esta pregunta puede estar relacionada con la diferencia entre micro y Macro de los promedios que se utilizan a menudo en un multi-etiqueta de clasificación de la tarea (por ejemplo, decir 5 etiquetas).

En el multi-etiqueta de configuración, micro promedio de las puntuaciones se calculan mediante la realización de una agregados tabla de contingencia de verdaderos positivos, falsos positivos, verdaderos negativos, falsos negativos para todos los 5 clasificador predicciones en 120 muestras. Esta tabla de contingencia es luego utilizada para calcular la precision micro, micro recordar micro y f-measure. Así que cuando tenemos 120 muestras y cinco de los clasificadores, el micro medidas están calculadas en 600 predicciones (120 muestras * 5 etiquetas).

Cuando se utiliza la Macro variante, uno calcula las medidas de precisión, recall, etc.) de forma independiente en cada etiqueta y, por último, estas medidas son el promedio.

La idea detrás de la diferencia entre micro vs Macro estimaciones pueden ser extendidos a lo que se puede hacer en un K-fold en un problema de clasificación binaria. Por 10 veces podemos promedio de más de 10 valores (Macro medición) o concatenar los 10 experimentos y calcular el micro medidas.

Fondo Ampliado de ejemplo:

El siguiente ejemplo ilustra la pregunta. Digamos que tenemos 12 muestras de prueba y contamos con 10 pliegues:

  • Doblar 1: TP = 4, FP = 0, TN = 8 Precisión = 1.0
  • Veces 2: TP = 4, FP = 0, TN = 8 Precisión = 1.0
  • Veces 3: TP = 4, FP = 0, TN = 8 Precisión = 1.0
  • Veces 4: TP = 0, FP = 12, Precisión = 0
  • Doble 5 .. 10 Veces: Todos tienen el mismo TP = 0, FP = 12 y Precisión = 0

donde he utilizado la siguiente notación:

TP = # de Verdaderos Positivos, FP = # Falsos Positivos, TN = # de Verdaderos Negativos

Los resultados son:

  • Promedio de precisión a través de 10 pliegues = 3/10 = 0.3
  • Precisión en la concatenación de las predicciones de los 10 pliegues = TP/TP+FP = 12/12+84 = 0.125

Tenga en cuenta que los valores de 0.3 y 0.125 son muy diferentes!

4voto

cbeleites Puntos 12461

La diferencia en mi humilde opinión es falsa.

Podrás observar que sólo si la distribución de los verdaderamente los casos positivos (es decir, método de referencia dice que es un caso positivo) es muy desiguales a lo largo de los pliegues (como en el ejemplo) y el número de casos de prueba (el denominador de la medida de rendimiento de los que estamos hablando, aquí la verdad positiva) no es tomado en cuenta cuando se calcula el promedio de las veces los promedios.

Si el peso de los primeros tres veces promedios con $\frac{4}{12} = \frac{1}{3}$ (como hubo 4 casos de prueba entre el total de los 12 casos que son relevantes para el cálculo de la precisión), y los últimos 6 veces promedios con 1 (todos los casos de prueba pertinentes para la precisión de cálculo), el promedio ponderado es exactamente el mismo que te dan de la agrupación de las predicciones de los 10 pliegues y, a continuación, el cálculo de la precisión.


edit: a la pregunta original, también se preguntó acerca de la iteración/repetición de la validación:

, usted debe ejecutar iteraciones de toda la $k$-fold cross validation procedimiento:
A partir de eso, usted puede obtener una idea de la estabilidad de las predicciones de los modelos

  • ¿En qué medida las predicciones de cambio si los datos de entrenamiento es perturbado por el intercambio de un par de muestras de formación?
  • I. e., ¿en qué medida las predicciones de los diferentes "sustituto" modelos varían de la misma muestra de prueba?

Le estaban pidiendo artículos científicos:

La subestimación de la varianza En última instancia, el conjunto de datos tiene finita (n = 120) tamaño de la muestra, independientemente del número de iteraciones de bootstrap o validación cruzada de hacer.

  • Usted tiene (al menos) 2 las fuentes de variación en el remuestreo (validación cruzada y de bootstrap) los resultados de la validación:

    • varianza debida a la número finito de (prueba) de la muestra
    • la varianza debido a la inestabilidad de las predicciones de que el sustituto de los modelos
  • Si los modelos son estables, entonces

    • iteraciones de $k$-fold cross validation no eran necesarios (que no mejoran el rendimiento estimado: el promedio de cada ejecución de la validación cruzada es el mismo).
    • Sin embargo, el rendimiento estimado es todavía sujeto a variación debido a que el número finito de muestras de prueba.
    • Si su estructura de datos es "simple" (es decir, una única medición de vector para cada estadísticamente independiente de los casos), se puede asumir que los resultados de la prueba son los resultados de un proceso de Bernoulli (coin-tirar) y calcular el finito-test-set de la varianza.
  • fuera de bootstrap se ve en la variación entre cada suplente predicciones del modelo. Es posible con la validación cruzada de los resultados, pero es poco común. Si usted hace esto, usted verá varianza debida a la finita, el tamaño de la muestra además de la inestabilidad. Sin embargo, tenga en cuenta que la puesta en común (por lo general) producido ya: para la validación cruzada usualmente $\frac{n}{k}$ resultados se agruparon, y para fuera-de-arranque de un número variable de la izquierda a la salida de las muestras se agrupan.
    Lo que hace a mí, personalmente, prefiero la validación cruzada (por el momento) ya que es más fácil separar la inestabilidad de finito de prueba tamaño de la muestra.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X