"Big data" está en todas partes en los medios de comunicación. Todo el mundo dice que el "big data" es la gran cosa para el 2012, por ejemplo, KDNuggets encuesta sobre temas de actualidad para el año 2012. Sin embargo, tengo una profunda preocupación aquí. Con big data, todo el mundo parece ser feliz sólo para conseguir cualquier cosa . Pero no estamos violando todos los clásicos principios de la estadística, tales como la prueba de hipótesis y representante de muestreo?
Mientras sólo hacemos predicciones sobre el mismo conjunto de datos, este debe estar bien. Así que si yo uso Twitter los datos para predecir el comportamiento de los usuarios de Twitter, que es probablemente correcto. Sin embargo, utilizando los datos de Twitter para predecir, por ejemplo, de las Elecciones deja de lado por completo el hecho de que los usuarios de Twitter no son una muestra representativa para el conjunto de la población. Además, la mayoría de los métodos realmente no ser capaz de diferenciar entre un verdadero "base" estado de ánimo y una campaña. Y twitter está lleno de campañas. Así que cuando el análisis de Twitter, que rápidamente terminan sólo la medición de las campañas y los bots. (Véase, por ejemplo, "Yahoo Predice América Políticos de los Ganadores" , el cual está lleno de los ataques y "análisis de sentimiento es mucho mejor". Ellos predijeron que "Romney tiene más de un 90 por ciento de probabilidad de ganar la nominación, y de ganar las primarias de Carolina del Sur" (tenía 28%, mientras que Gingrich había un 40% en esta primaria).
¿Conoces otros grandes datos no? Recuerdo más o menos que uno de los científicos predijeron que no podían mantener más de 150 amistades. En realidad sólo había descubierto un tope límite en friendster ...
Como para los datos de twitter, o en realidad, cualquier "grandes datos" recogidos de la web, creo que a menudo la gente incluso introducir sesgo adicional por la forma en que recogen sus datos. Serán pocos los que tienen todos los de Twitter. Van a tener un cierto subconjunto que spidered, y esto es sólo otro sesgo en su conjunto de datos.
La división de los datos en un conjunto de pruebas o para realizar la validación cruzada probable que no ayuda mucho. El otro conjunto tendrá el mismo sesgo. Y para grandes volúmenes de datos, necesito para "comprimir" mi información tan fuertemente que soy bastante raro overfit.
Recientemente he escuchado este chiste, con el big data científico que descubrió hay aproximadamente 6 sexos en el mundo... y lo que pueda esta tan imaginar a suceder... "Masculino, Femenino, Orcos, Peludo, el Sí y el No".
Entonces, ¿qué métodos tenemos que hacer para obtener algunos estadísticos de validez de nuevo en el análisis, en particular cuando se trata de predecir algo fuera de la "big data" conjunto de datos?