5 votos

Sesgo inducido por la selección del modelo

Estoy tratando de entender la siguiente frase

"Validación cruzada de la información y de los criterios de corrección para el uso de los datos dos veces (en la construcción de la parte posterior y en el modelo de evaluación) y obtener asintóticamente insesgados de las estimaciones de predicción de rendimiento para un determinado modelo. Sin embargo, cuando se usan estos métodos para elegir un modelo de selección, la capacidad de predicción de rendimiento de la estimación del modelo seleccionado es sesgada debido a el proceso de selección."

Se dice que debido a que la muestra puede no ser representativa, los métodos anteriores puede que más de/menos-estimación de la verdadera desempeño del modelo, y así vamos tienden a elegir aquellos que se desempeñan mejor en virtud de los datos seleccionados, pero no es para fuera-de-datos de la muestra?

P. S.: A. Gelman, si estás leyendo esto, es una cita de su libro. =D

5voto

naive Puntos 73

Yo creo que lo que están diciendo es que si el uso de una bodega de datos para la validación cruzada para estimar el error de generalización de su modelo de la tierra con la estimación insesgada de la generalización de error del modelo.

Pero una vez que utilice el conjunto de datos para el proceso de selección de un modelo, que creo que es el ajuste del modelo y minimizar el error en que determinado conjunto de datos y, a continuación, elige un modelo de muchos otros, entonces el error de estimación que se recibe no es un imparcial generalización de error de la estimación. Esto es porque el modelo ha sido optimizado para funcionar bien en el conjunto de datos utilizados para la validación cruzada y en una forma en que el modelo ha 'visto' los datos. Así que hay buenas posibilidades de que la estimación obtendrá subestima el verdadero error.

Para evitar esto y conseguir el imparcial generalización estimación del error se debe evaluar el modelo en una 'prueba' set que no ha sido utilizado para el entrenamiento o la validación (modelo de selección).

3voto

David Plumpton Puntos 1345

Cuando la evaluación de un modelo se asume que el modelo apriori cualquier otro visto de datos. Como tal, el modelo de evaluación está muy bien teniendo en cuenta que la muestra sea representativa. Sin embargo, cuando usted elige un modelo basado en datos, el ajuste del modelo se convierte en una variable aleatoria de estimación. Evaluar el desempeño en los mismos datos no es más imparcial, por lo general, más optimista que es el caso. Como tales para evitar este sesgo en la evaluación, se necesitan nuevos datos.

[Después de editar]

Yo realmente bien escrito y que participan de la discusión sobre este tema se puede encontrar en Análisis avanzado de Datos desde un Punto Elemental de Vista de Cosma Rohilla Shalizi. Es gratis y es uno de los mejores libros de no comprensión más profunda de este tipo de complejidades. Para esta discusión, véase la sección 3.5.1 Inferencia después de la selección.

Con respecto a que el comentario no comprendo lo que quieres decir con "relativa" de ajuste. Si el rendimiento relativo que significa que la evaluó el rendimiento de un modelo frente a otro, para el modelo de selección de los efectos y la atención acerca de la predicción, creo que se puede ir sin datos adicionales conjunto. Es como elegir el mejor que tiene a mano, pero sin saber muy bien cómo va a realizar su mejor modelo.

2voto

tchen Puntos 1344

A continuación es mi entendimiento de que el párrafo (sin contar con el contexto):

Inicio:

Validación cruzada de la información y de los criterios de corrección para el uso de los datos dos veces (en la construcción de la parte posterior y en el modelo de evaluación).

La validación cruzada de ayuda para evitar el llamado "doble inmersión" problema - cuando uno usa los mismos datos para estimar el modelo y comprobar lo bien que funciona.

Continúa:

y obtener asintóticamente insesgados de las estimaciones de predicción de rendimiento para un determinado modelo.

Cuando el tamaño de la muestra crece hasta el infinito de la validación cruzada generará estimaciones imparciales para la predicción del rendimiento. Con tamaños de muestra pequeños será más sesgada porque en cada una de validación cruzada veces no estaremos usando todos los datos de entrenamiento - pero sólo una parte de ella (como 9/10 en 10 veces CV).

Continúa:

Sin embargo, cuando se usan estos métodos para elegir un modelo de selección de

Que es cuando la validación cruzada se utiliza varias veces, no sólo una vez. Por ejemplo, al seleccionar entre varios modelos, podríamos tener una idea para ejecutar todos los modelos a través de la validación cruzada y seleccione la mejor.

Continúa:

la predicción de rendimiento de la estimación del modelo seleccionado es sesgada debido a el proceso de selección.

A continuación, el final de predicción de rendimiento (la cosa misma que se utilizó en la selección de nuestro modelo) estará sesgada. Esto es debido a que cada modelo tiene algo de la variabilidad o la aleatoriedad en ellos. Cuando se calcula en la final de los datos (con validación cruzada) estimaciones de rendimiento no nos dará la exacta rendimiento real de los modelos en la población. En cambio, hay siempre algún error asociado con esta medida de rendimiento.

Y porque de este error - vamos a terminar de recoger el modelo de cuyo error (diferencia entre el rendimiento real y el estimado de validación cruzada de rendimiento) es optimista sesgada. Y el más modelos que tratamos en la validación cruzada - será peor.

Línea de base:

La validación cruzada es imparcial (asintóticamente) cuando se utiliza una vez. Pero no es la panacea para el sobreajuste y será sesgada, una vez que empezamos a comparar los diferentes modelos en la misma cruz-datos de validación.

2voto

cbeleites Puntos 12461

Validación cruzada (aplica únicamente para la validación/verificación) evita el uso doble de casos en el conjunto de entrenamiento y en el conjunto de prueba para el mismo modelo. Sin embargo, las estimaciones de rendimiento que se utilizan para seleccionar al parecer, la mejor de una variedad de modelos son, de hecho, parte del modelo de formación. Para la validación cruzada se utiliza para la selección del modelo o la optimización es parte de la formación y a continuación, una prueba de uso de datos que es desconocido para el todo el proceso de formación (incluyendo la selección de modelo).

La razón de esto es que la validación cruzada de los resultados son sólo estimaciones (o medidas) de rendimiento modelo: están sujetos a sesgo y la varianza, es decir, sistemáticos y errores aleatorios.

debido a que la muestra puede no ser representativa, los métodos anteriores puede que más de/menos-estimación de la verdadera desempeño del modelo,

Que es otra manera de decir, no hay variación en la estimación de rendimiento además de un posible sesgo. Esto es cierto para cualquier tipo de medición de los resultados (estimación basada en las pruebas de los casos): la muestra de prueba (ya sea retenido por la validación cruzada o en cualquier otra forma) sin darse cuenta puede contener más fácil casos o casos más difíciles. Así que tendrás que esperar algo de la varianza cuando se prueba el mismo modelo con diferentes conjuntos de la prueba. En el remuestreo de validación (incluida la validación) tiene una fuente adicional de variación: de que son en realidad pruebas de sustituto de los modelos que se supone son lo suficientemente similares para el modelo formado en el conjunto de los datos (para la cual el rendimiento de la estimación se utiliza) para ser considerados equivalentes a efectos prácticos. Sin embargo, si su procedimiento de entrenamiento no es estable, vas a ver la diferencia que existe entre el sustituto de los modelos, que también se sumará a la varianza de la validación cruzada para el cálculo.

Así que terminamos con un casi imparcial, pero un poco ruidoso estimación de rendimiento ...

y así vamos tienden a elegir aquellos que se desempeñan mejor en virtud de los datos seleccionados,

Así que sí, a la hora de recoger el parecer de mejor desempeño del modelo, vamos a "quitar el ruido", es decir, modelos que accidentalmente se ven bien con la validación cruzada split hicimos serán favorecidas.

El riesgo de rozar la varianza (= sobreajuste, seleccionando el modelo equivocado) aumenta con la

  • número creciente de comparación de modelos
  • el aumento de la varianza de la incertidumbre en las estimaciones de rendimiento, y
  • la disminución de la verdadera diferencia en el rendimiento entre los considerados modelos
    (aunque se puede argumentar que este es un problema menor, como el error aquí es sólo para seleccionar un no totalmente perfecto modelo a partir de un número casi igual de buenos modelos)

pero no es para fuera-de-datos de la muestra?

Mientras la hacia fuera-de-la muestra de prueba se puede accidentalmente contienen más fácil de los casos de la población, es poco probable que somos (onu*)suerte aquí.

Nota: esto puede suceder, por supuesto. Pero se puede estimar la probabilidad/extensión de dicha al azar (mala) suerte con las herramientas usuales para estimar la incertidumbre sobre nuestra estimación de punto.
Mi impresión, sin embargo, es que en la práctica optimista evaluación de los modelos más frecuentemente ocurre debido a que el muestreo sesgado, como en los casos de ser excluidos para los que no las etiquetas pueden ser obtenidos (posiblemente debido a que son difíciles/en el límite de los casos).


* Considero que es mala suerte si aparece un modelo mejor de lo que realmente es, como he tenido que lidiar mucho con los datos de donde injustificado overoptimism puede conducir a un daño.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X