5 votos

¿Cómo decidir si hacer una reducción de la dimensionalidad antes de la agrupación?

¿Hay algún acuerdo sobre cuándo reducir la dimensión de los datos antes de agruparlos para evitar la maldición de la dimensionalidad?

Mi intuición es que si tengo, por ejemplo, 1000 puntos y la dimensión de los datos es 10, entonces está bien agrupar. Pero si la dimensión es 50 entonces no está bien porque los puntos de datos se vuelven escasos y difíciles de agrupar (como resultado espero obtener "demasiados" clusters).

8voto

Amadiere Puntos 5606

Se hace una reducción de la dimensionalidad si mejora los resultados.

No se hace una reducción de la dimensionalidad si los resultados son peores.

No hay una talla única en la extracción de datos . Tienes que hacer múltiples iteraciones de preprocesamiento, extracción de datos, evaluación, reintento, hasta que sus resultados le sirvan. Los diferentes conjuntos de datos tienen diferentes requisitos.

Recuerda cómo es el proceso de la KDD: KDD Process

Fíjate en las flechas grises que van hacia atrás. Si el resultado no le satisface, intente volver atrás y, por ejemplo, intente utilizar un preprocesamiento diferente, como la reducción de la dimensionalidad.

Pero 10 dimensiones no es alta dimensionalidad de todos modos, probablemente no hay necesidad de tener miedo de la maldición de la dimensionalidad, a menos que usted haga algunos métodos basados en la cuadrícula.

Para el comportamiento de los datos de alta dimensión, puedo recomendar los artículos de Houle et al:

  • ¿Pueden las distancias vecinas compartidas vencer la maldición de la dimensionalidad?
    M. E. Houle, H.-P. Kriegel, P. Kröger, E. Schubert y A. Zimek
    JSDB 2010

Muestran que no existe una relación directa entre el número de dimensiones y la capacidad de agrupar el conjunto de datos. Pero se trata más bien de la relación señal/ruido . Un conjunto de datos de alta dimensión puede ser muy fácil y bueno de agrupar si todas las dimensiones aportan señal. Si la mayoría de las dimensiones son ruido, un conjunto de datos mucho más pequeño ya se romperá. Así que, en particular, no existe una regla general del tipo "10 es bueno, 50 es malo", lo siento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X