Nate Silver en su excelente "El Ruido y la Señal", advirtió que somos mucho en el temor de Big Data. Pero, que el Big Data predicciones en muchos campos han sido desastrosos (mercados financieros y la economía, para nombrar sólo algunos de los campos). Con más datos, se obtiene más correlaciones espurias, más falsos positivos, y las respuestas erróneas. Diciendo eso, él también gravámenes en el excelente trabajo de Loannidis, quien indicó que más de 2/3ds de los descubrimientos científicos están equivocados, ya que no pueden ser replicados (sobre la base de extensas revisiones de papeles de trabajo). En otras palabras, mirar hacia fuera para las muchas trampas de múltiples pruebas de hipótesis, especialmente cuando aún no se han enunciado de las hipótesis, para empezar. "La correlación no implica causalidad" aún prevalece.
Ahora en un nuevo libro (llamado Big Data), escrito por Viktor Mayer-Schonberger y Kenneth Cukier, Big Data parece mucho más prometedor. Dado el tamaño de la muestra que a menudo equivale a la totalidad de la población, puede detectar granular relaciones entre los subconjuntos de los datos que usted podría nunca antes. Y, dentro de este Big Data de la época de correlación parece mucho más importante que la relación de causalidad. Averiguar cuáles son las variables predictivas se pone mucho mejor y ricos resultados de averiguar cuáles son verdaderamente causal (que a menudo se convierte en un difícil chase). El autor menciona varias nuevas herramientas que están destinadas a la extracción y el análisis de Grandes conjuntos de Datos, incluyendo las redes neuronales, inteligencia artificial, aprendizaje automático, análisis de sensibilidad, entre otros. Estar familiarizado con alguno de esos (y muy familiarizado con las tradicionales estadísticas y pruebas de hipótesis en particular), yo no puedo juzgar si el autor de la declaración es correcta (él no es un quant). Hacer esas técnicas realmente evitar las trampas de correlaciones espurias, múltiples pruebas de hipótesis, modelo overfit y resultados falsos positivos?
Se puede conciliar ambos puntos de vista: Nate Silver vs Viktor Mayer?