9 votos

Diferentes definiciones de la "maldición de la dimensionalidad"

He leído dos definiciones de la maldición de la dimensionalidad: La primera parece estar más extendida, (he visto a gente referirse a ella en stats.SE en otras preguntas), la otra la he encontrado recientemente. Aquí están:

  1. La maldición de la dimensionalidad fue acuñada para indicar que el número de muestras necesarias para estimar una función arbitraria con un determinado nivel de precisión crece exponencialmente con el número de variables (es decir, dimensiones) que comprende
    H. Samet, Foundations of Multidimensional and Metric Data Structures (Fundamentos de las estructuras de datos multidimensionales y métricas), pág. 486.

  2. La maldición de la dimensionalidad es un nombre que se da a la situación en la que todas o algunas de las características importantes de un conjunto de datos se concentran bruscamente cerca de sus valores medios (o de la media) y, por lo tanto, se vuelven no discriminatorias.
    [V. Pestov, An axiomatic approach to intrinsic dimension of a dataset, Neural Networks 21 (2008) 204-213]

¿Cuál es la relación entre estas definiciones? ¿Está la segunda de acuerdo con la primera?

9voto

user44816 Puntos 8

No es un objeto matemático como una derivada que deba definirse formalmente sin ambigüedades. Se trata de un término general que engloba las dos cuestiones que se plantean cuando se utilizan datos de alta dimensión. Los problemas están estrictamente separados y ambos están siempre presentes. Dependiendo de la vulnerabilidad de tu algoritmo a ellos, puedes tener que lidiar con ambos, con ninguno, con uno pero no con el otro y viceversa.

He leído la primera definición en versiones ligeramente diferentes. Esta definición, tal y como se cita aquí, no nos dice qué significa estimar la función con un nivel de precisión determinado. De todos modos, si quieres conocer el valor de una función en puntos equidistantes, necesitarás más puntos, cuantas más dimensiones tengas. Por ejemplo se necesitan 10 puntos para muestrear una línea 1D de 0 a 1 cada 0,1, se necesitan 100 puntos para el cuadrado unitario, 1000 para el cubo, etc. Esto afecta sólo a los algoritmos que necesitan puntos de muestreo en todas las direcciones del espacio de características.

La segunda definición también se denomina "efecto de concentración de la distancia". Muchos algoritmos, pero no todos, se ven afectados por él. Entra en juego cuando el algoritmo utiliza k vecinos más cercanos o alguna otra técnica que se base en medidas de distancia. No recuerdo en qué referencia canónica recogí el término concentración de distancia. Sin embargo, aquí hay dos artículos que discuten el tema en detalle: Cuándo tiene sentido el vecino más cercano , Un estudio sobre la detección no supervisada de valores atípicos en datos numéricos de alta dimensión

En la práctica, a menudo ocurren simultáneamente. En sentido estricto, siempre están presentes los dos. La cuestión es si su algoritmo es vulnerable a ambos o no. Por ejemplo, con el aprendizaje clásico de k vecinos más cercanos, se desea tener ejemplos de entrenamiento en todas las regiones del espacio de las que podrían proceder los ejemplos de prueba. Por tanto, es vulnerable a la maldición de la dimensionalidad en el primer sentido. También es vulnerable a la segunda acepción del término, ya que hay que calcular las distancias para establecer los vecinos más cercanos, lo que tiene menos sentido si todas las distancias convergen al mismo número.

Ambas definiciones están en uso. Te sugiero que deduzcas por el contexto el significado que utiliza una fuente y que especifiques a cuál te refieres cuando utilices el término.

PS. También he visto que el término se utiliza de manera informal cuando la complejidad computacional de un algoritmo aumenta con el número de dimensiones. En ese caso, el término se refiere simplemente a la complejidad computacional creciente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X