1 votos

Estrategia adecuada para los conjuntos de entrenamiento-prueba-validación

Una pregunta un poco básica supongo pero nunca me quedó claro. Muchos tutoriales de Kaggle y cursos en línea hacen hincapié en la importancia de una estrategia adecuada de validación cruzada para evaluar el rendimiento del modelo y garantizar la generalización. Sin embargo, muy pocos de estos tutoriales proporcionan una explicación sobre cómo hacerlo, y la mayoría de las veces las explicaciones son bastante estándar.

Estoy intentando crear un clasificador de spam, pero estoy trabajando con un conjunto de datos pequeño. Mi conjunto de datos de entrenamiento tiene un tamaño de 2.600 filas y hay un gran desequilibrio de clases, 2.433 observaciones negativas y 216 observaciones positivas:

  1. Estoy tratando de encontrar una técnica de sobremuestreo adecuada utilizando todo el conjunto de datos para hacer validación cruzada con el iterador StratifiedKFold con 10 pliegues y shuffling.
  2. Después de averiguar qué técnica de sobremuestreo funciona, divido el conjunto de datos de entrenamiento en dos partes (80/20)
  3. Entrene un modelo Random Forest en el conjunto de datos de entrenamiento, realizando el ajuste de hiperparámetros necesario (GridSearchCV con StratifiedKFold) y utilizando el conjunto de datos de prueba para la selección del modelo.
  4. Cuando termino con el entrenamiento, utilizo una muestra aleatoria que he reservado como conjunto de validación y realizo la evaluación final del rendimiento en este conjunto de datos.

Mi pregunta es, ¿se considera que esta es una buena forma de hacer las cosas o hay una forma mejor e inteligente de hacerlo?

0voto

roberto Puntos 1
  1. Dividir los datos en entrenamiento-validación-prueba
  2. Sobremuestreo de clase(s) minoritaria(s) en el tren set.

Nota: dado que su clase minoritaria sólo representa alrededor del 8 % del total, es posible que el sobremuestreo no funcione bien (si es que funciona). Puede que tenga que ser más creativo.

  1. Ajuste los hiperparámetros de su modelo en el conjunto de validación
  2. Tras seleccionar los mejores modelos, pruébelos en el conjunto de pruebas

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X