La extracción de características no siempre es una necesidad: depende del algoritmo utilizado para la clasificación. Tener demasiadas características llevará al llamado "maldición de la dimensionalidad". Un clasificador de máxima probabilidad será muy sensible a esto, mientras que un clasificador SVM debería teóricamente manejar un gran número de características sin demasiados problemas. Otros clasificadores son intermedios.
Un problema típico es la dispersión de la muestra de entrenamiento: si necesitas estimar una distribución, necesitas suficientes muestras de entrenamiento en todas las dimensiones, de modo que el número total de muestras crecerá exponencialmente con el número de dimensiones. Otro problema es que aumentas el riesgo de características correlacionadas, lo que puede causar problemas si deseas invertir una matriz.
En cualquier caso, agregar más características no necesariamente agrega más información, y la información es lo que necesitas. Por ejemplo, si deseas distinguir un automóvil de una motocicleta, la intensidad del color no te ayudará (pero si tu muestra es muy pequeña, podrías seleccionar al azar 2 coches rojos y dos motos amarillas, por lo tanto, concluir que todo lo rojo es un automóvil). La selección de características está destinada a ayudarte a seleccionar las características correctas (en este caso, el número de ruedas), pero también es un paso adicional donde puedes cometer errores.