Es posible que esta pregunta sea demasiado abierta para obtener una respuesta definitiva, pero esperemos que no.
Los algoritmos de aprendizaje automático, como SVM, GBM, Random Forest, etc., suelen tener algunos parámetros libres que, más allá de algunas orientaciones generales, deben ajustarse a cada conjunto de datos. Esto se hace generalmente con algún tipo de técnica de remuestreo (bootstrap, CV, etc.) para ajustar el conjunto de parámetros que dan el mejor error de generalización.
Mi pregunta es: ¿se puede ir demasiado lejos en este sentido? La gente habla de hacer búsquedas en la red, etc., pero ¿por qué no tratar esto simplemente como un problema de optimización y profundizar en el mejor conjunto posible de parámetros? Pregunté sobre algunos mecanismos de esto en este pregunta, pero no ha recibido mucha atención. Tal vez la pregunta estaba mal planteada, pero quizás la pregunta en sí misma representa un mal enfoque que la gente generalmente no hace?
Lo que me molesta es la falta de regularización. Puede que al volver a muestrear encuentre que el mejor número de árboles para crecer en un GBM para este conjunto de datos es 647 con una profundidad de interacción de 4, pero ¿cómo puedo estar seguro de que esto será cierto con los nuevos datos (asumiendo que la nueva población es idéntica al conjunto de entrenamiento)? Sin un valor razonable al que "encoger" (o, si se quiere, sin información previa), un nuevo muestreo parece lo mejor que podemos hacer. No oigo hablar de esto, así que me hace preguntarme si hay algo que me estoy perdiendo.
Obviamente, hay un gran coste computacional asociado a la realización de muchas iteraciones para exprimir hasta la última pizca de poder predictivo de un modelo, por lo que está claro que esto es algo que se haría si se tiene el tiempo/grupo para hacer la optimización y cada pizca de mejora del rendimiento es valiosa.