Solía aplicar el aprendizaje automático supervisado a un máximo de unas pocas docenas de características "normales" y naturales, como las interpretables por los humanos en la tabla de precios de las viviendas de Boston. Suelo intentar comprender cada una de ellas, pensar en cómo preprocesarlas a veces agrupando las continuas, recategorizando y codificando las categóricas, etc.
Ahora, sin embargo, me enfrento a características muy numerosas (varios centenares) en las que esta visión íntima, una por una, es claramente imposible. La solución más fácil sería aceptar las características tal y como son y manejarlas ciegamente en masa, pero de esta manera no se pueden señalar algunos métodos de optimización evidentes o, lo que es más importante, algunas correcciones decisivas. Por ejemplo, R y/o Python Pandas a veces identifican incorrectamente columnas numéricas/categóricas, lo que es bastante engañoso si no se detecta (la imputación de datos perdidos debe aplicarse de forma muy diferente, y la estandarización no tiene sentido en el caso de los categóricos, por mencionar sólo dos problemas).
Así que mi pregunta es ¿cuál es la forma adecuada de tratar y borrar/corregir estas numerosas características cuando no es posible examinarlas una por una? ¿Estoy limitado a utilizar tipos de modelos basados en árboles que son insensibles a los NA y a la escala, por lo que no necesitan preprocesamiento?
(Para que quede claro: no se trata de reducir la dimensionalidad).