5 votos

Sobreajuste con casi el mismo número de observaciones y características

Cuando se trata con casi el mismo número de características y observaciones, uno de los problema más común es el sobreajuste. Para mi proyecto he usado la clase 2 de la LDA en un 1400 * 1000 conjunto de datos y para evitar el sobreajuste, yo solía K-fold (k=10) de validación cruzada. Me puse un 10% de mi observación vector de lado cada vez que como un conjunto de datos de prueba y entrenó a los datos restantes y se repite todo el procedimiento 10 veces. Por desgracia no estoy seguro de si el sobreajuste problema se resuelve mediante el uso de este método. Así que tengo las siguientes preguntas:

  1. ¿Cómo puedo medir si el sobreajuste que pasó o no?
  2. Después de usar algunas técnicas adicionales para superar o evitar este problema (como el de validación cruzada, la regularización, la detención temprana, etc.), ¿cómo puedo saber cuánto estas técnicas me ayudó a evitar el sobreajuste?
  3. Cuando se trata con casi el mismo número de características y observaciones, ¿cuál es el mejor extra de técnicas que se pueden usar para evitar el sobreajuste?
  4. En mi caso, el aumento de K, el número de pliegues, que me ayude a evitar el sobreajuste?

Nota:no sé si esto va a ayudar o no , pero mi trabajo es un aprendizaje supervisado problema.

2voto

ssn Puntos 472

1.cómo medir si el sobreajuste que pasó o no?

Usted consigue una sugerencia de un modelo que, probablemente, es overfitted cuando el rendimiento en la prueba de que es excesivamente bajo en comparación con el rendimiento en el tren de datos o, incluso, en comparación con el no-modelo de información, pero ten en cuenta que los algoritmos son siempre espera que para llevar a cabo mejor en el tren de datos.

2.después de usar algunas técnicas adicionales para superar o evitar este problema (como el de validación cruzada, la regularización, la detención temprana, ...) ¿cómo puedo saber cuánto estos extra método que me ayude a evitar el Sobreajuste problema?

El más cerca de su rendimiento de la prueba se presenta a entrenar el rendimiento de los menos de sobreajuste hay. Precaución se justifica porque usted puede estar dejando de sobreajuste sólo para entrar en underfitting, es decir, de tren y de rendimiento de la prueba son razonablemente similares, pero ambos son malos.

3.cuando se trata con casi el mismo número de la característica y de la observación, ¿cuál es el mejor extra método se puede utilizar para evitar el sobreajuste?

Bastante difícil responder a eso sin estar basadas en la opinión. Han tratado de disminuir un poco la cantidad de funciones, como la eliminación de las combinaciones lineales o características que tienen cerca de cero, la varianza (esto es parte de la optimización de modelo y así debe ser hecho dentro de la validación cruzada)? También, incrustado métodos de regularización como lazo vale la pena un cheque (veo que has mencionado). Búsqueda-tipo de métodos de selección de características en realidad podría hacer overfit peor, es decir, la selección de la función de sí mismo puede ser overfitted a los datos de entrenamiento.

4.y por último pero no menos importante, en mi caso la dosis crecientes de K número que me ayude a evitar el Sobreajuste?

La elección de $K$ debe tomar en cuenta el sesgo de la varianza en equilibrio. Una buena lectura acerca de lo que es el Capítulo 3, con énfasis en las Secciones 3.3-5 de Kohavi, R. (1995). Contenedores para la mejora del rendimiento y ajeno a la decisión de gráficos (tesis Doctoral, universidad de stanford). El punto es de gran predisposición al optimismo conduce a sobreajuste. El aumento de $K$ reduce el sesgo, pero podría aumentar la varianza para el punto de la inutilidad. Repite la validación cruzada se puede utilizar para reducir la varianza, pero repitiendo demasiado conduce a la subestimación de la varianza. Demasiado pequeño $K$, como $2$veces CV también tiene gran diferencia. $10$veces es generalmente considerado como un buen compromiso.


Esta respuesta lleva una heurística para estimar el sobreajuste, pero nunca lo he intentado, así que no puede realmente hacer un comentario sobre él.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X