Ya han pasado muchos años desde que me he hecho ninguna estadística (o cualquier grave de las matemáticas), pero sí recuerdo que el error de muestreo disminuye más lentamente para tamaños de muestras más grandes (como n^-1/2, al menos para algunos de estadísticas).
También recuerdo (de análisis numérico) que para los procesos de modelado lineal de ecuaciones diferenciales ordinarias, errores en constante coeficientes o condiciones iniciales aumentan exponencialmente con el tiempo (y al menos tan malo para procesos no lineales), es decir, la reducción de la condición inicial sólo los errores y comprad para nosotros un aumento de la logarítmica en la predicción de precisión a lo largo del tiempo.
Mientras que mucho se ha dicho sobre los Grandes Datos y la parcialidad de los errores, una cosa es cierta: lo que los datos ya se puede recoger (junto con cualquiera de los sesgos que puedan contener), usted puede tomar la muestra al azar sin la introducción de sesgos. En resumen: si usted puede almacenar -- usted puede tomar la muestra (sin prejuicios).
A la luz de estos (y puedo estar equivocado, por supuesto), parece que cualquier muestra adicional recopilamos tiene rendimiento decreciente en las estadísticas, así como las predicciones (y los beneficios disminuyen muy rápidamente). Parece, entonces, que incluso si el almacenamiento y el análisis de Grandes Datos es relativamente barato, aún así no pagar. Tenemos un montón de datos que nos compre con poco o ningún conocimiento adicional: muy poco más de precisión estadística, no menos sesgo, y prácticamente ninguna capacidad predictiva[1]. Entonces, ¿cuáles son los beneficios de Big Data?
(Esta pregunta es más no un duplicado de la de muestreo Es relevante en el momento de la 'big data'?, y, en cualquier caso, las respuestas a esa pregunta no responder a las minas)
[1] Este último punto -- de la capacidad predictiva-parece la más pertinente, ya que es lo que muchos de los usos comerciales de Grandes volúmenes de Datos. Pero el comportamiento de los usuarios de los cambios todo el tiempo, probablemente con algunas complicado comentarios, y posiblemente no lineal -- así que sea cual sea la exactitud adicional que tenemos, dicen que n^-1/2, esta magra ganancia, entonces, se convierte logarítmica cuando las predicciones son que se trate. De hecho, se puede argumentar que para obtener mejores predicciones, es preferible reducir el tiempo que se toma para calcular la estadística (por muestreo), que para aumentar la precisión al aumentar el tamaño de la muestra, debido a que el tiempo tiene un efecto exponencial en "conocimiento", mientras que el tamaño de la muestra tiene un mero polinomio efecto.