Si usted no desea analizar el conjunto de datos completo, entonces probablemente usted no puede utilizar el muestreo estratificado, por lo que te sugiero tomar una gran muestra aleatoria simple. Tomando al azar una muestra, se puede asegurar que la muestra, en promedio, ser representativa de todo el conjunto de datos y estadísticas estándar de las medidas de precisión, tales como los errores estándar y los intervalos de confianza le dirá qué tan lejos los valores de la población la muestra, las estimaciones tienden a ser, por lo que no hay necesidad real para validar que una muestra es representativa de la población, a menos que usted tiene algunas preocupaciones de que es verdaderamente fueron muestreados al azar.
Cómo grande una muestra aleatoria simple? Así, la más grande es la muestra, más precisa sus estimaciones serán. Como ya tenemos los datos, convencional tamaño de la muestra cálculos no son realmente aplicables -- usted puede también utilizar como parte de su conjunto de datos como es la práctica de la computación. A menos que usted está planeando hacer algunos análisis complejos que hará que el tiempo de cómputo de un problema, un enfoque sencillo sería hacer una muestra aleatoria simple tan grande como puede ser analizado en su PC sin que conduce a la paginación o de otros problemas de memoria. Una regla de oro para limitar el tamaño de su conjunto de datos a no más de la mitad de la RAM de su ordenador a fin de tener espacio para manipular y dejar espacio para el sistema operativo y tal vez un par de otras pequeñas aplicaciones (tales como un editor de texto y un navegador web). Otra limitación es que en Windows de 32 bits de los sistemas operativos no permiten que el espacio de direcciones para una única aplicación para que sea mayor que $2^{31}$ bytes = 2.1 GB, así que si estás usando Windows de 32 bits, 1GB puede ser un razonable límite en el tamaño de un conjunto de datos.
Es entonces un asunto de simple aritmética para calcular cuántas observaciones se puede degustar en vista de cómo muchas variables que tiene para cada observación y cuántos bytes de cada variable.