¿Qué significan los big data y los datos de alta dimensión? ¿Son los datos de alta dimensión un caso especial de big data? ¿Cuáles son las complicaciones que surgen en el análisis de los datos de alta dimensión y de los big data?
Respuesta
¿Demasiados anuncios?Datos masivos implica un gran número de puntos de datos, mientras que datos de alta dimensión implica muchas dimensiones/variables/características/columnas.
Es posible tener un conjunto de datos con muchas dimensiones y pocos puntos, o muchos puntos con pocas dimensiones. Pero si tienes conjuntos de datos de alta dimensión con pocos puntos de datos, es poco probable que puedas aprender mucho de ellos. Por lo tanto, los datos de alta dimensión suelen ser también big data.
Lo contrario no es cierto: los big data no necesitan muchas dimensiones para aprender de ellos. Pero si sólo se trabaja con unas pocas dimensiones, probablemente no sea tan necesario recoger un gran número de puntos de datos para realizar el análisis. Tenga en cuenta que hay importantes excepciones a esto: mediciones ruidosas, datos espaciales o temporales de alta frecuencia, etc.
Por lo tanto, es probable que, en general, los conjuntos de datos gigantes con muchos puntos también tengan muchas variables/dimensiones. En otras palabras, los términos significan cosas diferentes, pero los big data suelen ser datos de alta dimensión y viceversa.
En cuanto a las complicaciones asociadas a cada una de ellas, he aquí una respuesta muy incompleta: el big data plantea retos computacionales (carga de datos en memoria, por ejemplo), mientras que el análisis de datos de alta dimensión es presa de la maldición de la dimensionalidad .