1.cómo medir si el sobreajuste que pasó o no?
Usted consigue una sugerencia de un modelo que, probablemente, es overfitted cuando el rendimiento en la prueba de que es excesivamente bajo en comparación con el rendimiento en el tren de datos o, incluso, en comparación con el no-modelo de información, pero ten en cuenta que los algoritmos son siempre espera que para llevar a cabo mejor en el tren de datos.
2.después de usar algunas técnicas adicionales para superar o evitar este problema (como el de validación cruzada, la regularización, la detención temprana, ...) ¿cómo puedo saber cuánto estos extra método que me ayude a evitar el Sobreajuste problema?
El más cerca de su rendimiento de la prueba se presenta a entrenar el rendimiento de los menos de sobreajuste hay. Precaución se justifica porque usted puede estar dejando de sobreajuste sólo para entrar en underfitting, es decir, de tren y de rendimiento de la prueba son razonablemente similares, pero ambos son malos.
3.cuando se trata con casi el mismo número de la característica y de la observación, ¿cuál es el mejor extra método se puede utilizar para evitar el sobreajuste?
Bastante difícil responder a eso sin estar basadas en la opinión. Han tratado de disminuir un poco la cantidad de funciones, como la eliminación de las combinaciones lineales o características que tienen cerca de cero, la varianza (esto es parte de la optimización de modelo y así debe ser hecho dentro de la validación cruzada)? También, incrustado métodos de regularización como lazo vale la pena un cheque (veo que has mencionado). Búsqueda-tipo de métodos de selección de características en realidad podría hacer overfit peor, es decir, la selección de la función de sí mismo puede ser overfitted a los datos de entrenamiento.
4.y por último pero no menos importante, en mi caso la dosis crecientes de K número que me ayude a evitar el Sobreajuste?
La elección de $K$ debe tomar en cuenta el sesgo de la varianza en equilibrio. Una buena lectura acerca de lo que es el Capítulo 3, con énfasis en las Secciones 3.3-5 de Kohavi, R. (1995). Contenedores para la mejora del rendimiento y ajeno a la decisión de gráficos (tesis Doctoral, universidad de stanford). El punto es de gran predisposición al optimismo conduce a sobreajuste. El aumento de $K$ reduce el sesgo, pero podría aumentar la varianza para el punto de la inutilidad. Repite la validación cruzada se puede utilizar para reducir la varianza, pero repitiendo demasiado conduce a la subestimación de la varianza. Demasiado pequeño $K$, como $2$veces CV también tiene gran diferencia. $10$veces es generalmente considerado como un buen compromiso.
Esta respuesta lleva una heurística para estimar el sobreajuste, pero nunca lo he intentado, así que no puede realmente hacer un comentario sobre él.