2 votos

¿Cómo enfocar el preprocesamiento de un gran número de características para el aprendizaje automático?

Solía aplicar el aprendizaje automático supervisado a un máximo de unas pocas docenas de características "normales" y naturales, como las interpretables por los humanos en la tabla de precios de las viviendas de Boston. Suelo intentar comprender cada una de ellas, pensar en cómo preprocesarlas a veces agrupando las continuas, recategorizando y codificando las categóricas, etc.

Ahora, sin embargo, me enfrento a características muy numerosas (varios centenares) en las que esta visión íntima, una por una, es claramente imposible. La solución más fácil sería aceptar las características tal y como son y manejarlas ciegamente en masa, pero de esta manera no se pueden señalar algunos métodos de optimización evidentes o, lo que es más importante, algunas correcciones decisivas. Por ejemplo, R y/o Python Pandas a veces identifican incorrectamente columnas numéricas/categóricas, lo que es bastante engañoso si no se detecta (la imputación de datos perdidos debe aplicarse de forma muy diferente, y la estandarización no tiene sentido en el caso de los categóricos, por mencionar sólo dos problemas).

Así que mi pregunta es ¿cuál es la forma adecuada de tratar y borrar/corregir estas numerosas características cuando no es posible examinarlas una por una? ¿Estoy limitado a utilizar tipos de modelos basados en árboles que son insensibles a los NA y a la escala, por lo que no necesitan preprocesamiento?

(Para que quede claro: no se trata de reducir la dimensionalidad).

0voto

Devon Parsons Puntos 206

Yo diría que no se limita a los modelos basados en árboles. Siempre se puede intentar descartar las muestras con valores de características ausentes, aunque, por supuesto, esto podría hacer que se perdieran demasiadas muestras.

Usted ya menciona la imputación y considera correctamente que los distintos tipos de datos necesitarían estrategias diferentes. Podría escribir un script de preprocesamiento que comprobara el tipo de datos de cada característica y aplicara la estrategia elegida. Esto sería bastante similar a su análisis uno por uno conceptualmente, pero si su secuencia de comandos está escrito correctamente se puede analizar un conjunto de datos de unos pocos miles de características de tamaño con facilidad.

Espero que le sirva de ayuda.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X