26 votos

Interno vs externo de validación cruzada y el modelo de selección

Mi entendimiento es que con validación cruzada y el modelo de selección tratamos de abordar dos cosas:

P1. Estimación de la pérdida esperada en la población durante el entrenamiento con nuestro ejemplo

P2. Medir y reportar nuestra incertidumbre de esta estimación de la variación, intervalos de confianza, los prejuicios, etc.)

Estándar de práctica parece ser la de hacer repetidas de la validación cruzada, ya que esto reduce la varianza de nuestra calculadora.

Sin embargo, cuando se trata de la presentación de informes y análisis, a mi entender, es que la validación interna es mejor que la validación externa porque:

Lo mejor es informe:

  • Las estadísticas de nuestro estimador de, por ejemplo, su intervalo de confianza de la varianza, media, etc. en el total de la muestra (en este caso, el CV de la muestra).

de presentación de informes:

  • La pérdida de nuestro estimador en un subconjunto de la muestra original, ya que:

    (i) Esta sería una sola medición (incluso si elegimos nuestro estimador con el CV)

    (ii) Nuestro estimador para esta medida han sido entrenados en un conjunto (por ejemplo, el CV) que es más pequeño que nuestra muestra inicial, puesto que tenemos que hacer espacio para la bodega -. Esto se traduce en una más sesgada (pesimista) estimación en P1 .

Es esto correcto? Si no ¿por qué?

Antecedentes:

Es fácil encontrar libros que recomendamos dividir la muestra en dos grupos:

  • La CV , que es posteriormente y en varias ocasiones divide en tren y validación de conjuntos.
  • La sujeción (de prueba), sólo se utiliza en el extremo para reportar el estimador de rendimiento

Mi pregunta es un intento de comprender los méritos y ventajas de este enfoque de libros de texto, teniendo en cuenta que nuestro objetivo es abordar realmente los problemas P1 y P2 en el principio de este post. Me parece que la presentación de informes sobre la sujeción de la prueba de conjunto es una mala práctica ya que el análisis de la CV de la muestra es más informativo.

Anidado K-fold vs repetido K veces:

Uno puede, en principio, se combinan de sujeción con regular K veces para obtener anidada K veces. Esto nos va a permitir medir la variabilidad de nuestra calculadora, pero a mi me parece que para el mismo número total de modelos de formación (total # de pliegues) que se repite K veces daría estimadores que son menos sesgada y más precisa que anidados K veces. A ver esta:

  • Repite K veces utiliza una mayor fracción del total de nuestra muestra que anidados K veces por el mismo K (es decir, conduce a la reducción de sesgo)
  • 100 iteraciones sólo daría 10 mediciones de nuestro estimador en anidada K-fold (K=10), pero el 100 mediciones en K-veces (más de las mediciones conduce a la reducción de la varianza en P2)

Lo que está mal con este razonamiento?

9voto

dan90266 Puntos 609

Una clave de referencia de explicar esto es:

@ARTICLE{pic90,
  author = {Picard, R. R. and Berk, K. N.},
  year = 1990,
  title = {Data splitting},
  journal = The American Statistician,
  volume = 44,
  pages = {140-147}
}

Vea también:

@Article{mic05pre,
  author =       {Michiels, Stefan and Koscielny, Serge and Hill, Catherine},
  title =        {Prediction of cancer outcome with microarrays: a
multiple random validation strategy},
  journal =      {Lancet},
  year =         2005,
  volume =       365,
  pages =        {488-492},
  annote =       {comment on
p. 454; validation;microarray;bioinformatics;machine learning;nearest
centroid;severe problems with data splitting;high variability of list
of genes;problems with published studies;nice results for effect of
training sample size on misclassification error;nice use of confidence
intervals on accuracy estimates;unstable molecular signatures;high
instability due to dependence on selection of training sample}
}

En mi propio trabajo me he encontrado con que los datos de la división requiere de entrenamiento y de prueba tamaño de la muestra se aproxima 10.000 a trabajar satisfactoriamente.

8voto

Sai Puntos 1

Realmente depende de su modelo de proceso de construcción, pero he encontrado este artículo útil

http://www.biomedcentral.com/content/pdf/1471-2105-7-91.pdf

El quid de lo que se discute aquí es el importante sesgo liberal (modelo de estimación de rendimiento para ser mejor de lo que va a ser en realidad) que se producirá si usted está seleccionando a su modelo basado en lo mismo que usted está utilizando para la estimación de su rendimiento. Por lo tanto, si usted está seleccionando tu modelo a partir de un conjunto de modelos posibles mirando la cruz de error de validación, usted no debe usar la cruz de error de validación (o cualquier otro método de estimación) para estimar el modelo de rendimiento.

Otro recurso útil es

http://stats.stackexchange.com/a/27751/26589

Este post presenta un claro ejemplo de cómo la selección de sus funciones cuando todos los datos se "ve" conducirá a un liberal sesgo en el modelo de rendimiento (diciendo que el modelo tendrá un mejor desempeño de lo que es en realidad).

Si usted quisiera poner un ejemplo que es más específico con lo que haces, tal vez usted podría dar una descripción general de los tipos de modelos en los que está edificio (la cantidad de datos que tienen, cómo muchas de las características de su selección, el modelo actual, etc.).

7voto

cbeleites Puntos 12461

Permítanme añadir un par de puntos a las buenas respuestas que ya están aquí:

Anidado K-fold vs repetido K veces: anidados y se repite k veces son cosas completamente diferentes, se utilizan para diferentes propósitos.

  • Como usted ya sabe, anidada es buena si desea utilizar el interior de la cv para el modelo de selección.
  • repite: en mi humilde opinión siempre debe repetir el k-fold cv [ver más abajo].

Por tanto, recomiendo a repetir anidadas k-fold cross validation.

Mejor informe "Las estadísticas de nuestro estimador de, por ejemplo, su intervalo de confianza de la varianza, media, etc. en el total de la muestra (en este caso, el CV de la muestra).":

Seguro. Sin embargo, usted debe ser consciente del hecho de que usted no (fácilmente) ser capaz de estimar el intervalo de confianza por parte de la cruz de validación de los resultados por si solos. La razón es que, por mucho que volver a muestrear, el número real de casos que vemos es finito, y por lo general bastante pequeños, de lo contrario no tendríamos preocuparse de estas distinciones).
Ver, por ejemplo, Bengio, Y. y Grandvalet, Y.: No Imparcial Estimador de la Varianza de K-Fold Cross-Validation Diario de la Máquina de la Investigación del Aprendizaje, 2004, 5, 1089-1105.

Sin embargo, en algunas situaciones, sin embargo, puede hacer una estimación de la varianza: Con la repetición de la k-fold cross validation, usted puede obtener una idea de si el modelo de inestabilidad juega un papel. Y esta inestabilidad relacionada con la varianza es en realidad la parte de la varianza que puede reducir por repetir la validación cruzada. (Si los modelos son perfectamente estables, cada repetición/iteración de la validación cruzada tendrá exactamente las mismas predicciones para cada caso. Sin embargo, usted todavía tiene varianza debida a la elección real/composición de su conjunto de datos). Así que hay un límite a la menor variación de las repetidas k-fold cross validation. Haciendo más y más repeticiones/iteraciones no tiene sentido, ya que la variación causada por el hecho de que, al final, sólo $n$ casos reales fueron probados no se ve afectada.

La variación causada por el hecho de que, al final, sólo $n$ casos reales fueron probados pueden ser estimados para algunos casos especiales, por ejemplo, el rendimiento de los clasificadores según lo medido por las proporciones, tales como la tasa de éxito, tasa de errores, sensibilidad, especificidad, valores predictivos y así sucesivamente: siguen distribuciones binomiales Desafortunadamente, esto significa que tienen gran variación $\sigma^2 (\hat p) = \frac{1}{n} p (1 - p)$ $p$ el verdadero valor de desempeño del modelo, $\hat p$ a la observada, y $n$ el tamaño de la muestra en el denominador de la fracción. Esto tiene el máximo de $p = 0.5$. También puede calcular los intervalos de confianza a partir de la observación. (@Frank Harrell comentar que estos no son adecuadas reglas de puntuación, por lo que de todos modos no se debe usar de ellos - que está relacionada con la variación enorme). Sin embargo, en mi humilde opinión son útiles para derivar conservador límites (hay mejores reglas de puntuación, y el mal comportamiento de estas fracciones es el peor de los casos límite para la mejora de las normas),
ver, por ejemplo, C. Beleites, R. Salzer y V. Sergo: Validación de Suave Clasificación de los Modelos de uso Parcial de la Clase de Pertenencias: Un Concepto Extendido de la Sensibilidad & Co. aplicado a la Calificación de Astrocitoma Tejidos, Chemom. Intell. Lab. Syst., 122 (2013), 12 - 22.

Así que esto me permite girar alrededor de su argumentación en contra de la sujeción:

  • Tampoco remuestreo solo (necesariamente) dará una buena estimación de la varianza,
  • OTOH, si puede razonar acerca de lo finito-prueba-muestra-tamaño de la varianza de la cruz de validación de la estimación, que es también posible para aguantar.

Nuestro estimador para esta medida han sido entrenados en un conjunto (por ejemplo, el CV) que es más pequeño que nuestra muestra inicial, puesto que tenemos que hacer espacio para la bodega -. Esto se traduce en una más sesgada (pesimista) estimación en P1 .

No necesariamente (si se compara con k-fold) - pero usted tiene que el comercio fuera de: los pequeños de sujeción de ajuste (por ejemplo, $\frac{1}{k}$ de la muestra => bajo de sesgo (≈ mismo como k-fold cv), varianza alta (> k-fold cv, aproximadamente por un factor de k).

Me parece que la presentación de informes sobre la sujeción de la prueba de conjunto es una mala práctica, ya que el análisis de la CV de la muestra es más informativo.

Por lo general, sí. Sin embargo, también es bueno tener en cuenta que existen importantes tipos de errores (drift) que no pueden ser medidos/detectado por el remuestreo de validación.
Ver, por ejemplo, Esbensen, K. H. y Geladi, P. Principios de una Correcta Validación: uso y abuso de re-muestreo para la validación, el Diario de la Quimiometría, 2010, 24, 168-187

pero a mi me parece que para el mismo número total de modelos de formación (total # de pliegues) que se repite K veces daría estimadores que son menos sesgada y más preciso que anidados K veces. A ver esta:

Repite K veces utiliza una mayor fracción del total de nuestra muestra que anidados K veces por el mismo K (es decir, conduce a la reducción de sesgo)

Yo diría que no a esto: no importa cómo el modelo de formación utiliza su $\frac{k - 1}{k} n$ muestras de formación, mientras que el sustituto de los modelos y el "verdadero" modelo de uso de la misma manera. (Miro el interior de validación cruzada / estimación de hyper-parámetros como parte de la modelo set-up).
Las cosas se ven diferentes si se compara sustituto de los modelos que están capacitados incluyendo hyper-optimización del parámetro de "el modelo" que se encuentra capacitado en el fijo de hyper-parámetros. Pero en mi humilde opinión que es generalizar a partir de $k$ manzanas 1 naranja.

100 iteraciones sólo daría 10 mediciones de nuestro estimador en anidada K-fold (K=10), pero el 100 mediciones en K-veces (más de las mediciones conduce a la reducción de la varianza en P2)

Si esto hace una diferencia depende de la inestabilidad de la (suplente) modelos, véase más arriba. Para los modelos estables es irrelevante. Así que puede ser si usted hace 1000 o 100 exterior repeticiones/iteraciones.


Y este papel definitivamente pertenece a la lista de lectura sobre este tema: Cawley, G. C. y Talbot, N. L. C. En el Sobre-ajuste en el Modelo de Selección y Posterior Sesgo de Selección en la Evaluación del Rendimiento Diario de la Máquina de la Investigación del Aprendizaje, 2010, 11, 2079-2107

2voto

kalimurugan Puntos 1

Creo que su interpretación es correcta, el estimador de la pérdida obtenida mediante el uso de una sola de sujeción del conjunto de pruebas generalmente tiene una alta varianza. Mediante la realización de algo como K-pliegues de la validación cruzada de obtener una idea más precisa de la pérdida, así como el sentido de la distribución de la pérdida.

Generalmente hay un compromiso, el más CV pliegues, el mejor de su estimación, pero más tiempo de cálculo necesario.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X