40 votos

Cómo sacar conclusiones válidas a partir de "big data"?

"Big data" está en todas partes en los medios de comunicación. Todo el mundo dice que el "big data" es la gran cosa para el 2012, por ejemplo, KDNuggets encuesta sobre temas de actualidad para el año 2012. Sin embargo, tengo una profunda preocupación aquí. Con big data, todo el mundo parece ser feliz sólo para conseguir cualquier cosa . Pero no estamos violando todos los clásicos principios de la estadística, tales como la prueba de hipótesis y representante de muestreo?

Mientras sólo hacemos predicciones sobre el mismo conjunto de datos, este debe estar bien. Así que si yo uso Twitter los datos para predecir el comportamiento de los usuarios de Twitter, que es probablemente correcto. Sin embargo, utilizando los datos de Twitter para predecir, por ejemplo, de las Elecciones deja de lado por completo el hecho de que los usuarios de Twitter no son una muestra representativa para el conjunto de la población. Además, la mayoría de los métodos realmente no ser capaz de diferenciar entre un verdadero "base" estado de ánimo y una campaña. Y twitter está lleno de campañas. Así que cuando el análisis de Twitter, que rápidamente terminan sólo la medición de las campañas y los bots. (Véase, por ejemplo, "Yahoo Predice América Políticos de los Ganadores" , el cual está lleno de los ataques y "análisis de sentimiento es mucho mejor". Ellos predijeron que "Romney tiene más de un 90 por ciento de probabilidad de ganar la nominación, y de ganar las primarias de Carolina del Sur" (tenía 28%, mientras que Gingrich había un 40% en esta primaria).

¿Conoces otros grandes datos no? Recuerdo más o menos que uno de los científicos predijeron que no podían mantener más de 150 amistades. En realidad sólo había descubierto un tope límite en friendster ...

Como para los datos de twitter, o en realidad, cualquier "grandes datos" recogidos de la web, creo que a menudo la gente incluso introducir sesgo adicional por la forma en que recogen sus datos. Serán pocos los que tienen todos los de Twitter. Van a tener un cierto subconjunto que spidered, y esto es sólo otro sesgo en su conjunto de datos.

La división de los datos en un conjunto de pruebas o para realizar la validación cruzada probable que no ayuda mucho. El otro conjunto tendrá el mismo sesgo. Y para grandes volúmenes de datos, necesito para "comprimir" mi información tan fuertemente que soy bastante raro overfit.

Recientemente he escuchado este chiste, con el big data científico que descubrió hay aproximadamente 6 sexos en el mundo... y lo que pueda esta tan imaginar a suceder... "Masculino, Femenino, Orcos, Peludo, el Sí y el No".

Entonces, ¿qué métodos tenemos que hacer para obtener algunos estadísticos de validez de nuevo en el análisis, en particular cuando se trata de predecir algo fuera de la "big data" conjunto de datos?

31voto

dan90266 Puntos 609

Sus temores están bien fundados y perceptivo. Yahoo y probablemente varias otras empresas están haciendo experimentos aleatorios de los usuarios y hacerlo bien. Pero los datos de observación son frought con dificultades. Una idea errónea común es que los problemas disminuyen a medida que el tamaño de la muestra aumenta. Esto es cierto para la varianza, pero el sesgo permanece constante a medida que n aumenta. Cuando el sesgo es grande, una muy pequeña muestra realmente aleatoria o al azar de estudio puede ser más valioso de 100.000.000 de observaciones.

24voto

J Wynia Puntos 4679

Hay un número de técnicas en el diseño experimental y el análisis que puede ayudar a reducir el sesgo, pero de nuevo, esto siempre se reduce a lo mismo: Uno tiene que saber lo que uno está haciendo. El análisis del Big data tiene el mismo problema como cualquier otro análisis de datos; sufre de una falta de hipótesis.

Un claro ejemplo es el de regresión múltiple por pasos de selección de variables. Muy bonito, un decir, pero con 100 variables a medir estadística leyes dictan que algunos de ellos se muestran una relación significativa cuando se evalúa examinando si el respectivo coeficiente es significativamente distinto de cero. Así que el más variables en el conjunto de datos, más probabilidad de encontrar dos que muestran algunos (sin sentido) en la relación. Y el más grande de su conjunto de datos, más posibilidades de sentido de los modelos de debido a por ejemplo un pequeño efecto de confusión. Si la prueba de muchos de los modelos (y aún con sólo 10 variables que pueden ser un montón de modelos), es muy probable encontrar al menos uno de los importantes. ¿Significa algo? No.

¿Qué se debería hacer entonces? Utilice su cerebro:

  • formular una hipótesis antes de recolectar los datos y la prueba esta hipótesis. Esa es la única manera de asegurarse de que sus estadísticas realmente contar una historia.
  • Utilice su covariables para estratificar las muestras antes de hacer algunas pruebas. Estúpido ejemplo: Si usted tiene 1000 varones y 100 mujeres en el conjunto de datos, seleccione al azar de 50 cada uno, si quieres hablar de un promedio de la población. Que en realidad es algo donde el big data viene en práctico: Usted tiene más que suficiente para la muestra.
  • Describir la población de estudio a fondo, por lo que es claro para el que la población de sus conclusiones se formulan.
  • Si usted utiliza su gran conjunto de datos para un análisis de los propósitos, de probar la hipótesis de que lleguen a un acuerdo durante esta exploración en un nuevo y diferente conjunto de datos, no sólo un subconjunto de lo que recogen. Y prueba de nuevo utilizando todas las precauciones necesarias.

Estas cosas son obvias y conocidas. Diablos, ya en 1984 Rosenbaum y Rubin ilustra cómo el uso de los puntajes de propensión a reducir el sesgo en los estudios observacionales, y eso es lo que la mayoría de los grandes conjuntos de datos son: datos de observación. En la obra más reciente de Feng et al, el uso de la distancia de Mahalanobis se recomienda también. Y de hecho, uno de mis estadístico de los héroes, Cochran, escribió una reseña sobre ese problema ya en 1973! ¿Y qué acerca de Rubin, quien introdujo multivariante emparejados de muestreo y la regresión de la corrección ya en 1979. Las antiguas publicaciones están seriamente subestimada y demasiado a menudo se ignora, sin duda, en un campo como el de la estadística.

Todas estas técnicas tienen pros y contras, y uno tiene que entender que la reducción de sesgo no es la misma como la eliminación de los prejuicios. Pero si usted es consciente de :

  • lo que se quiere evaluar, y
  • cómo lo están haciendo

Big data no es una excusa para venir con falsos resultados.


Editado después de la (corrección) comentario de @D. W., quien señaló que he usado el término "sobreajuste" en un contexto equivocado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X