10 votos

¿Cómo hacer un conjunto de muestras representativas a partir de un gran conjunto de datos?

¿Cuáles son las técnicas estadísticas para crear un conjunto de muestras, que es representativo de toda la población (con un nivel de confianza conocido)?

También,

  • ¿Cómo validar, si la muestra se ajusta al conjunto de datos global?
  • ¿Es posible, sin analizar todo el conjunto de datos (que podría ser miles de millones de registros)?

8voto

Berek Bryan Puntos 349

Si usted no desea analizar el conjunto de datos completo, entonces probablemente usted no puede utilizar el muestreo estratificado, por lo que te sugiero tomar una gran muestra aleatoria simple. Tomando al azar una muestra, se puede asegurar que la muestra, en promedio, ser representativa de todo el conjunto de datos y estadísticas estándar de las medidas de precisión, tales como los errores estándar y los intervalos de confianza le dirá qué tan lejos los valores de la población la muestra, las estimaciones tienden a ser, por lo que no hay necesidad real para validar que una muestra es representativa de la población, a menos que usted tiene algunas preocupaciones de que es verdaderamente fueron muestreados al azar.

Cómo grande una muestra aleatoria simple? Así, la más grande es la muestra, más precisa sus estimaciones serán. Como ya tenemos los datos, convencional tamaño de la muestra cálculos no son realmente aplicables -- usted puede también utilizar como parte de su conjunto de datos como es la práctica de la computación. A menos que usted está planeando hacer algunos análisis complejos que hará que el tiempo de cómputo de un problema, un enfoque sencillo sería hacer una muestra aleatoria simple tan grande como puede ser analizado en su PC sin que conduce a la paginación o de otros problemas de memoria. Una regla de oro para limitar el tamaño de su conjunto de datos a no más de la mitad de la RAM de su ordenador a fin de tener espacio para manipular y dejar espacio para el sistema operativo y tal vez un par de otras pequeñas aplicaciones (tales como un editor de texto y un navegador web). Otra limitación es que en Windows de 32 bits de los sistemas operativos no permiten que el espacio de direcciones para una única aplicación para que sea mayor que $2^{31}$ bytes = 2.1 GB, así que si estás usando Windows de 32 bits, 1GB puede ser un razonable límite en el tamaño de un conjunto de datos.

Es entonces un asunto de simple aritmética para calcular cuántas observaciones se puede degustar en vista de cómo muchas variables que tiene para cada observación y cuántos bytes de cada variable.

2voto

simmosn Puntos 304

Sobre su segunda pregunta, en primer lugar, usted podría preguntar, "¿cómo fue que los datos introducidos?" Si usted piensa que los datos fueron introducidos en una relativamente arbitraria de la moda (es decir, independiente de cualquier observables o no observables de las características de sus observaciones que podrían influir en su último análisis de la utilización de los datos), entonces usted podría considerar la primera de 5 millones de, digamos, o sin embargo muchos de los que te sientas a gusto, como representante de la totalidad de la muestra y seleccionar al azar de este grupo para crear un ejemplo de que se puede trabajar.

Para comparar dos distribuciones empíricas, puede utilizar q-parcelas y las dos muestras de prueba de Kolmogorov–Smirnov y la prueba no paramétrica de las diferencias en las distribuciones (ver, por ejemplo, aquí: http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test). En este caso, la prueba de la distribución de cada variable en la muestra en contra de la distribución de esa variable en su "completo" conjunto de datos (de nuevo, podría ser sólo 5 millones de observaciones de su total de la muestra). La prueba de KS pueden sufrir de baja potencia (es decir, es difícil rechazar la hipótesis nula de no diferencia entre los grupos), pero, con que muchas de las observaciones, usted debería estar bien.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X