8 votos

Big Data vs múltiples pruebas de hipótesis?

Nate Silver en su excelente "El Ruido y la Señal", advirtió que somos mucho en el temor de Big Data. Pero, que el Big Data predicciones en muchos campos han sido desastrosos (mercados financieros y la economía, para nombrar sólo algunos de los campos). Con más datos, se obtiene más correlaciones espurias, más falsos positivos, y las respuestas erróneas. Diciendo eso, él también gravámenes en el excelente trabajo de Loannidis, quien indicó que más de 2/3ds de los descubrimientos científicos están equivocados, ya que no pueden ser replicados (sobre la base de extensas revisiones de papeles de trabajo). En otras palabras, mirar hacia fuera para las muchas trampas de múltiples pruebas de hipótesis, especialmente cuando aún no se han enunciado de las hipótesis, para empezar. "La correlación no implica causalidad" aún prevalece.

Ahora en un nuevo libro (llamado Big Data), escrito por Viktor Mayer-Schonberger y Kenneth Cukier, Big Data parece mucho más prometedor. Dado el tamaño de la muestra que a menudo equivale a la totalidad de la población, puede detectar granular relaciones entre los subconjuntos de los datos que usted podría nunca antes. Y, dentro de este Big Data de la época de correlación parece mucho más importante que la relación de causalidad. Averiguar cuáles son las variables predictivas se pone mucho mejor y ricos resultados de averiguar cuáles son verdaderamente causal (que a menudo se convierte en un difícil chase). El autor menciona varias nuevas herramientas que están destinadas a la extracción y el análisis de Grandes conjuntos de Datos, incluyendo las redes neuronales, inteligencia artificial, aprendizaje automático, análisis de sensibilidad, entre otros. Estar familiarizado con alguno de esos (y muy familiarizado con las tradicionales estadísticas y pruebas de hipótesis en particular), yo no puedo juzgar si el autor de la declaración es correcta (él no es un quant). Hacer esas técnicas realmente evitar las trampas de correlaciones espurias, múltiples pruebas de hipótesis, modelo overfit y resultados falsos positivos?

Se puede conciliar ambos puntos de vista: Nate Silver vs Viktor Mayer?

7voto

Peter Puntos 658

Esto no es toda la respuesta, pero una consideración importante es que parte de sus datos es grande.

Considere el siguiente ejemplo. Me estoy haciendo un análisis de las mediciones físicas de los seres humanos. Para cada uno de los voluntarios me mida la distancia entre los ojos, entonces la longitud de cada uno de los dígitos, la longitud de las espinillas, etc. Y puedo grabar todo en una mesa grande para algunos análisis exploratorio.

Si me decido a hacer mi de datos más grande, puedo hacer dos cosas, puedo hacer más mediciones para cada persona (es decir. más características). Esto es peligroso, ya que aumenta la probabilidad de correlaciones espurias.

Si me decido a aumentar el número de casos, sin embargo, realmente debería reducir la probabilidad de correlaciones espurias, y aunque las correlaciones encontradas no implica causalidad, que va a ser más significativo.

Esto está fuertemente relacionado con la maldición de la dimensionalidad, lo cual nos indica que la adición de características (es decir. dimensiones) puede causar un aumento exponencial en el número de instancias necesarias de forma fiable deducir cosas a partir de los datos (a menos que los datos tiene menor dimensión intrínseca, es decir,. altamente correlacionados características).

Personalmente, veo el big data como un aumento en el número de casos, no sólo en el número de cuenta, pero esta es una causa de confusión.

3voto

pgras Puntos 7202

Otra cosa a considerar es cómo la gente trabajar con grandes datos (como contraposición a la 'pequeña' de los datos). Big data normalmente requiere varios pasos de procesamiento antes de que se introduce en el análisis. Y a veces no está claro lo que hay que probar para exactamente en estos conjuntos de datos para comenzar con. Ambos factores combinados permiten un margen de maniobra considerable cuando se trata del análisis final. Lo que sucede a menudo es que la gente de ejecutar múltiples análisis y, a continuación, elija (o tienden a elegir) el que confirma su preconcepto o que devuelve un "positiva" de resultado y no de un duro para publicar nulo resultado. En otras palabras, en lugar de las técnicas de análisis es el de los seres humanos que caer en las "trampas de correlaciones espurias, múltiples pruebas de hipótesis, y los resultados falsos positivos".

2voto

Shawn Miller Puntos 3875

'Big data', por lo general se refiere a conjuntos de datos con tropecientos millones de temas, y un número relativamente menor de las mediciones por sujeto (también llamado 'de altura' de datos). Para los datos que se amplia, en lugar de la altura, hay mucho trabajo ya hecho, una buena fuente de Efron en el reciente libro de Gran Escala de Inferencia: Empírico de Bayes Métodos para la Estimación, Pruebas, análisis y Predicción", que se ocupa, entre otras cosas, varias pruebas de hipótesis. De datos que es realmente alto, no he visto mucho de la teoría, aunque hay un montón de trabajo relativas a los algoritmos (ver " Minería de grandes conjuntos de datos de google y encontrarás legalmente gratuita en formato pdf). También hay algo de trabajo en el desarrollo de la metodología estadística para la altura de datos, como 'Big Data bootstrap' por Kleiner, Talwalkar, Sarkar Y Jordania.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X