O más por lo que "será"? Big Data hace que las estadísticas y los conocimientos pertinentes de todos los más importantes, pero parece ignorar Teoría del Muestreo.
He visto este hype alrededor de 'Big Data' y no puede dejar de extrañar que el "por qué" le quiero analizar todo? No hay una razón para la "Teoría del Muestreo" para ser diseñado/implementado/inventada o descubierta? No entiendo el punto de análisis de la totalidad de la "población" del conjunto de datos. Sólo porque usted puede hacer esto no significa que usted debe (la Estupidez es un privilegio, pero no se debe abusar de ella :)
Así que mi pregunta es esta: ¿Es estadísticamente relevante para analizar todo el conjunto de datos? Lo mejor que podía hacer sería para minimizar el error si se hizo el muestreo. Pero es el costo de reducir al mínimo error que realmente vale la pena? Es el "valor de la información" realmente vale la pena el esfuerzo, tiempo, costo, etc. que va en el análisis de grandes datos en paralelo masivo de los ordenadores?
Incluso si uno analiza la totalidad de la población, el resultado sería todavía mejor de adivinar con una mayor probabilidad de ser correcta. Probablemente un poco superior a la de muestreo (o sería mucho más?) Sería el conocimiento adquirido de análisis de la población vs el análisis de la muestra difieren ampliamente?
O debemos aceptar como "los tiempos han cambiado"? Muestreo como una actividad puede ser menos importante le da la suficiente potencia de cálculo :)
Nota: no estoy tratando de iniciar un debate, pero en busca de una respuesta para entender el por qué el big data hace lo que hace (es decir, de analizar todo) y el desprecio de la teoría de muestreo (o no?)