Aquí prefiero la técnica de Muestreo Sistemático donde se selecciona cada k-ésimo individuo de la población. Así, de una lista de n tweets llegados, se elige cada k-ésimo tweet para construir un conjunto de muestra de 's' tweets, tal que k*s está cerca de n.
Ventajas:
-
Procedimiento estadísticamente válido simple
-
Exacto
-
Más fácil de implementar y verificar que se hayan seleccionado los tweets correctos
-
No sesgado y representativo, incluso más probable que en un esquema de Muestreo Aleatorio Simple, en el contexto actual, ya que también se ordena por hora de llegada, donde este último criterio es probablemente relevante, ya que distribuye la muestra durante el día. Como tal, puede, por ejemplo, aislar trabajadores, mayormente inactivos de 9 AM a 5 PM, versus no trabajadores incluido estudiantes activos de 3 PM a 8 PM (después de la escuela), y adultos mayores activos más tarde en la noche.
Por lo tanto, la aplicación de Muestreo Sistemático simple, fácil de implementar, no sesgado y representativo aquí probablemente también resulta en una distribución de la muestra sobre importantes demografías de edad y clases de ingresos.
Nota: Cómo se llega al mejor tamaño de muestra 's' es un tema importante, mejor discutido por separado.
[EDIT] Un punto importante que es debidamente señalado por esta referencia educativa, para citar:
No tienes una lista completa, por lo que el muestreo aleatorio simple no se aplica...
Entonces, técnicamente el empleo de un esquema de muestreo aleatorio simple, para evaluar las características de la población principal, es válido cuando se tiene una lista completa de la población sobre la cual submuestrear. Este NO es el caso con una serie continua de tweets generados que constituyen un subconjunto del universo de tweets. Por lo tanto, inferencias sobre la población principal y, en particular, la cuestión de si es representativa de la 'muestra total', implicando la población principal, solo pueden ser contestadas de manera discutible aquí por un esquema de muestreo aleatorio simple. Sin embargo, la misma fuente afirma la validez del muestreo sistemático en tal contexto, para citar:
Dado que no tenemos acceso a la lista completa, simplemente párate en una esquina y selecciona cada 10ma* persona que pase.
*Por supuesto, elegir 10 aquí es solo un ejemplo. Dependería del número de estudiantes que típicamente pasan por ese lugar y qué tamaño de muestra se necesitaba.