57 votos

¿Es relevante en la época de muestreo ' grandes datos '?

O más por lo que "será"? Big Data hace que las estadísticas y los conocimientos pertinentes de todos los más importantes, pero parece ignorar Teoría del Muestreo.

He visto este hype alrededor de 'Big Data' y no puede dejar de extrañar que el "por qué" le quiero analizar todo? No hay una razón para la "Teoría del Muestreo" para ser diseñado/implementado/inventada o descubierta? No entiendo el punto de análisis de la totalidad de la "población" del conjunto de datos. Sólo porque usted puede hacer esto no significa que usted debe (la Estupidez es un privilegio, pero no se debe abusar de ella :)

Así que mi pregunta es esta: ¿Es estadísticamente relevante para analizar todo el conjunto de datos? Lo mejor que podía hacer sería para minimizar el error si se hizo el muestreo. Pero es el costo de reducir al mínimo error que realmente vale la pena? Es el "valor de la información" realmente vale la pena el esfuerzo, tiempo, costo, etc. que va en el análisis de grandes datos en paralelo masivo de los ordenadores?

Incluso si uno analiza la totalidad de la población, el resultado sería todavía mejor de adivinar con una mayor probabilidad de ser correcta. Probablemente un poco superior a la de muestreo (o sería mucho más?) Sería el conocimiento adquirido de análisis de la población vs el análisis de la muestra difieren ampliamente?

O debemos aceptar como "los tiempos han cambiado"? Muestreo como una actividad puede ser menos importante le da la suficiente potencia de cálculo :)

Nota: no estoy tratando de iniciar un debate, pero en busca de una respuesta para entender el por qué el big data hace lo que hace (es decir, de analizar todo) y el desprecio de la teoría de muestreo (o no?)

29voto

Alistair Puntos 41

En una palabra, . Yo creo que no están aún claras situaciones donde el muestreo es adecuado, dentro y fuera de la "big data" del mundo, pero la naturaleza de big data será, sin duda cambiar nuestro enfoque de muestreo, y la vamos a utilizar más conjuntos de datos que son casi completa de las representaciones de la subyacente de la población.

En el muestreo: Dependiendo de las circunstancias, es casi siempre está claro si el muestreo es una manera adecuada de hacer las cosas. El muestreo no es intrínsecamente un beneficiosos de la actividad; es sólo lo que hacemos, porque tenemos que hacer concesiones en el costo de la implementación de la recolección de datos. Estamos tratando de caracterizar las poblaciones y la necesidad de seleccionar el método apropiado para la recopilación y análisis de datos acerca de la población. El muestreo tiene sentido cuando el costo marginal de un método de recopilación de datos o procesamiento de datos es alta. Tratando de alcanzar el 100% de la población no es un buen uso de los recursos en ese caso, debido a que a menudo son mejor direccionamiento de las cosas como la falta de respuesta sesgo de hacer pequeñas mejoras en el error de muestreo aleatorio.

Cómo es big data? "Big data" se ocupa de muchas de las mismas preguntas que nosotros hemos tenido para las edades, pero lo que es "nuevo" es que la recolección de datos ocurre existente, mediada por ordenador del proceso, por lo que el costo marginal de la recogida de datos es esencialmente cero. Esto reduce drásticamente nuestra necesidad para el muestreo.

Cuándo será que todavía utilizamos el muestreo? Si el "big data" de la población es el derecho de la población para el problema, a continuación, sólo emplear el muestreo en un par de casos: la necesidad de diferentes grupos experimentales, o si el volumen de datos es demasiado grande para la captura y proceso (muchos de nosotros puede manejar millones de filas de datos con la facilidad de hoy en día, por lo que el límite aquí es conseguir más y más). Si parece que me estoy despidiendo a su pregunta, probablemente porque rara vez he encontrado situaciones en las que el volumen de los datos fue una preocupación en el grupo o etapas de procesamiento, aunque sé que muchos tienen

La situación que parece difícil para mí es cuando el "big data" de la población no representar perfectamente a su población objetivo, por lo que los inconvenientes son más las manzanas a las naranjas. Digamos que usted es una regional planificador de transporte, y Google ha ofrecido para dar acceso a su navegación GPS Androide registros para ayudar a usted. Mientras que el conjunto de datos, no cabe duda de ser interesante el uso de la población probablemente sería sistemáticamente sesgados en contra de las personas de bajos ingresos, el transporte público a los usuarios, y de los ancianos. En tal situación, los tradicionales diarios de viajes enviado al azar a una muestra de hogares, aunque más costoso y más pequeñas en número, todavía podría ser el método superior de la recopilación de datos. Pero, esto no es simplemente una cuestión de "muestreo vs big data", es una cuestión de que la población en combinación con los datos pertinentes de recopilación y análisis de métodos que se pueden aplicar para que la población se adapte mejor a sus necesidades.

22voto

StasK Puntos 19497

Si bien puede ser un infierno de un montón de Grandes Datos producidos por los dispositivos móviles y tal, hay muy pocos datos utilizables en ella. Si desea predecir los desplazamientos urbanos patrones de uso de foursquare, puede ser apagado por un orden de magnitud en la estimación de los flujos. Peor aún, no se sabe si son sobreestimar o subestimar estos flujos. Usted puede obtener una increíblemente precisa de la urbana, los patrones de viaje de maníaco foursquare los usuarios, pero a menos que todo el mundo es necesaria (1) para mantener un trabajo smartphone, (2) para ejecutar el cuadrangular de la aplicación todo el tiempo, y (3) para registrar en cualquier lugar en el que permanecer en el por más de 10 minutos (es decir, obtener una electrónica Censo; deje que los libertarios se quejan de que Google y Facebook saber todo acerca de ti), los datos se contienen desconocido sesgos, y su electrónica Deweys continuará para derrotar a la real palabra Trumans (hacer clic):

En todo caso, yo esperaría que este pedazo de historia se repite, y que algunos de los grandes "cerveza+pañales" previsiones de Big Data podría ser revocada por los investigadores que utilizan más riguroso de los métodos de muestreo. Es sorprendente que la probabilidad basada en encuestas siguen siendo precisas, aún a pesar de la caída de las tasas de respuesta.

21voto

nikolaMM94 Puntos 38

Cuando uno aplica las técnicas de la inferencia estadística, es importante tener en claro a la población acerca de lo que uno pretende sacar conclusiones. Incluso si la información que ha sido recopilada es muy grande, es posible que todavía se refieren sólo a una pequeña parte de la población, y puede no ser representativa de la totalidad.

Supongamos, por ejemplo, que una empresa que opera en un determinado sector ha recogido 'big data' en sus clientes en un determinado país. Si se quiere utilizar esos datos para sacar conclusiones acerca de sus clientes ya existentes en el país, el muestreo puede no ser muy relevante. Sin embargo, si se quiere sacar conclusiones acerca de una población mayor potencial, así como a los clientes o a los clientes en otro país, entonces se convierte en esencial a considerar en qué medida los clientes acerca de los cuales se han recogido los datos son representativos - tal vez en los ingresos, la edad, el género, la educación, etc - de la población mayor.

La dimensión de tiempo también debe ser considerado. Si el objetivo es el uso de la inferencia estadística para apoyar las predicciones, la población debe ser entendido para extender en el futuro. Si es así, entonces de nuevo se convierte en esencial para considerar si el conjunto de datos, sin embargo, ya se ha obtenido en circunstancias representante de aquellos que pueden obtener en el futuro.

13voto

Craig Walker Puntos 13478

Por lo que he visto de el big data/ML locura, pensando en el muestreo y la población de la que la muestra resultante es tan importante como la de la historia -, pero pensé que incluso menos.

Estoy "auditoría" de la universidad de Stanford ML de clase, y hasta ahora hemos cubierto de regresión y de redes neuronales con ni una sola mención de la población de inferencia. Debido a que esta clase ha sido tomada por 6 cifras-la pena de la gente, ahora hay un montón de personas que no saben cómo adaptarse a los datos muy sin ninguna noción de la idea de una muestra.

12voto

Sanjay Agrawal Puntos 26

Sí, el muestreo es relevante y seguirá siendo relevante. Línea de fondo es que la precisión de una estimación estadística es generalmente una función del tamaño de la muestra, no de la población a la que queremos generalizar. Para una media o una proporción promedio calculado a partir de una muestra de 1.000 encuestados obtener una estimación de una cierta precisión (con respecto a la totalidad de la población de la que probamos), independientemente del tamaño de la población (o de "lo grande", el "big data" se están).

Habiendo dicho eso: No son específicos de los problemas y desafíos que son relevantes y deben ser mencionadas:

  1. Tomar una buena muestra de la probabilidad no es siempre fácil. Teóricamente, cada individuo en la población a la que queremos generalizada (sobre el cual queremos hacer inferencias) debe tener una probabilidad conocida de ser seleccionado; lo ideal sería que la probabilidad debe ser el mismo (la misma probabilidad de la muestra o de la EPSEM – Igual Probabilidad de Selección). Que es una consideración importante y se debe tener una clara comprensión de cómo el proceso de muestreo va a asignar las probabilidades de selección para los miembros de la población a la que uno quiere generalizar. Por ejemplo, se puede derivar de Twitter estimaciones precisas del total de los sentimientos en la población en general, incluyendo a aquellas personas sin cuentas de twitter?
  2. El Big data puede contener muy complejo y la información; dicho de otro modo, el problema no es de muestreo, pero (micro-segmentación, sacando de la información adecuada para un pequeño subconjunto de observaciones que sean pertinentes. Aquí el desafío no es de muestreo, sino para identificar la específica de la estratificación y segmentación de los datos grande que los rendimientos de la más precisa información procesable que se pueden convertir en información valiosa.
  3. Otra regla general de la medición de la opinión es que los errores no muestrales y sesgos son generalmente mucho más grande que el error de muestreo y de los prejuicios. Sólo porque usted proceso 1 cien tropecientos registros de los encuestados expresan una opinión no hacer los resultados más útil si sólo se tienen datos de más de 1000 persona submuestra, en particular si las preguntas para la respectiva encuesta no se escribe bien y el sesgo.
  4. A veces el muestreo es necesario: Por ejemplo, si uno fuera a construir un modelo predictivo a partir de todos los datos, ¿cómo se podía validar? ¿Cómo se podía comparar la precisión de los diferentes modelos? Cuando hay "grandes datos" (muy grandes repositorios de datos), entonces uno puede construir varios modelos y el modelado de escenarios para las diferentes muestras, y validar (probar) en otras muestras independientes. Si uno fuera a construir un modelo para todos los datos ¿cómo se podía validar?

Usted puede comprobar fuera de nuestra "Revolución Big Data' aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X