Se hace una reducción de la dimensionalidad si mejora los resultados.
No se hace una reducción de la dimensionalidad si los resultados son peores.
No hay una talla única en la extracción de datos . Tienes que hacer múltiples iteraciones de preprocesamiento, extracción de datos, evaluación, reintento, hasta que sus resultados le sirvan. Los diferentes conjuntos de datos tienen diferentes requisitos.
Recuerda cómo es el proceso de la KDD:
Fíjate en las flechas grises que van hacia atrás. Si el resultado no le satisface, intente volver atrás y, por ejemplo, intente utilizar un preprocesamiento diferente, como la reducción de la dimensionalidad.
Pero 10 dimensiones no es alta dimensionalidad de todos modos, probablemente no hay necesidad de tener miedo de la maldición de la dimensionalidad, a menos que usted haga algunos métodos basados en la cuadrícula.
Para el comportamiento de los datos de alta dimensión, puedo recomendar los artículos de Houle et al:
- ¿Pueden las distancias vecinas compartidas vencer la maldición de la dimensionalidad?
M. E. Houle, H.-P. Kriegel, P. Kröger, E. Schubert y A. Zimek
JSDB 2010
Muestran que no existe una relación directa entre el número de dimensiones y la capacidad de agrupar el conjunto de datos. Pero se trata más bien de la relación señal/ruido . Un conjunto de datos de alta dimensión puede ser muy fácil y bueno de agrupar si todas las dimensiones aportan señal. Si la mayoría de las dimensiones son ruido, un conjunto de datos mucho más pequeño ya se romperá. Así que, en particular, no existe una regla general del tipo "10 es bueno, 50 es malo", lo siento.