Tengo una proporción de 70 / 30 para los datos de entrenamiento / prueba. Tengo un conjunto de características relativamente pequeño (6 características), sin embargo, todavía quiero hacer la selección de características para deshacerse de cualquier característica redundante (supongo que 1 de mis características muy posiblemente es). ¿Ejecutar la selección de características en los datos utilizados más tarde para el entrenamiento / prueba de sesgo de los resultados? Sé que para la validación cruzada esto es cierto, pero ¿qué pasa con un simple conjunto de entrenamiento / prueba como el mío?
Respuesta
¿Demasiados anuncios?La respuesta corta es sí. Con su división de entrenamiento/prueba tiene dos opciones básicas para realizar la selección de características:
- Entrene su algoritmo en el conjunto de entrenamiento utilizando un subconjunto de características, y luego pruebe el rendimiento en el conjunto de entrenamiento.
- Entrene su algoritmo en el conjunto de entrenamiento utilizando un subconjunto de características, y luego pruebe el rendimiento en el conjunto de prueba.
Con 1 puedes sufrir claramente de sobreajuste ya que estás entrenando y probando en el mismo conjunto de datos.
Con la 2 se entrena y se prueba en conjuntos de datos independientes, y por lo tanto se evita el sobreajuste de una manera que el enfoque 1 no hace. Sin embargo, el problema es que se evalúan los subconjuntos de características mediante pruebas repetidas con el conjunto de pruebas. Esto significa que se corre el riesgo de que uno de los subconjuntos funcione muy bien en el conjunto de pruebas por casualidad (similar al problema de las pruebas múltiples al determinar los valores p).
Supongo que lo ideal sería tomar múltiples muestras del conjunto de entrenamiento (por ejemplo, múltiples divisiones aleatorias del mismo en conjuntos de entrenamiento y de prueba) para determinar el mejor subconjunto de características. A continuación, se podría entrenar con todo el conjunto de entrenamiento utilizando el subconjunto de características y, a continuación, probar con el conjunto de prueba. Algo así significa que su conjunto de prueba nunca se ha visto antes, y por lo tanto la selección de características no podría haber seleccionado específicamente características para un buen rendimiento en el conjunto de prueba. He encontrado este (junto con otros que hacen referencia a él) para ser el más útil cuando estaba aprendiendo sobre esto.