7 votos

¿Cómo asegurarse de que la muestra aleatoria sea representativa de toda la muestra?

Tengo 14k tweets y quiero codificar estos tweets (categorizarlos en función de sus temas), pero como es difícil hacer la codificación para todo el conjunto de datos, decidí tomar una muestra de él.

Lo que estoy pensando es tomar un 20% aleatoriamente seleccionado de toda la muestra (aunque no estoy seguro de por qué decidí un 20%) y luego hacer la codificación solo para esta muestra (20%). Mi pregunta aquí es ¿cómo verificar si la muestra aleatoria que elegí es representativa?

3voto

Aaron Puntos 36

Mientras no desees incorporar información de covariables en tu esquema de muestreo (por ejemplo, equilibrar tweets de hombres/mujeres), el método usual es tomar una muestra aleatoria simple sin reemplazo. Esto se puede implementar en R utilizando la función sample.int. En el código a continuación te muestro cómo generar una muestra aleatoria simple de $N$ valores de la población. Para mayor comodidad, la muestra se ordena en orden ascendente, por lo que es una lista de números de los tweets a incluir en la muestra. (Recuerda establecer tu semilla para randomización reproducible.)

#Generar muestra aleatoria simple de tweets
set.seed(1)
N <- 14000
p <- 0.2
n <- ceiling(p*N)
MUESTRA <- sort(sample.int(N, size = n, replace = FALSE))

#Mostrar la muestra
MUESTRA

   [1]     8    13    17    18    21    25    27    42    59    64  ...
  [24]   126   128   129   149   152   155   157   172   173   179  ...
  [47]   237   241   244   262   267   274   277   289   308   311  ...
  ...
  ...
  ...
[2761] 13775 13777 13779 13780 13784 13785 13787 13788 13796 13798  ...
[2784] 13879 13880 13886 13896 13908 13918 13923 13927 13942 13944  ...

En caso de que estés buscando un método de aleatorización que proporcione una muestra "representativa" con respecto a algunas variables de interés (por ejemplo, hombres y mujeres, etc.) entonces puedes usar la randomización por bloques en lugar de la muestreo aleatorio simple. La randomización por bloques te permite asegurar que las variables conocidas en tus datos se distribuyan de manera representativa en tu muestra. Es un poco más complicado que el código anterior pero también se puede implementar de manera reproducible utilizando código script.

Debes tener en cuenta que con cualquier método de muestreo, es posible realizar controles post hoc de las distribuciones de variables conocidas en las partes muestreadas y no muestreadas. Sin embargo, se desaconseja rotundamente rechazar una muestra aleatoria basada en análisis post hoc ya que puede llevar a problemas graves en tu análisis.

0voto

bohan Puntos 522

Aquí prefiero la técnica de Muestreo Sistemático donde se selecciona cada k-ésimo individuo de la población. Así, de una lista de n tweets llegados, se elige cada k-ésimo tweet para construir un conjunto de muestra de 's' tweets, tal que k*s está cerca de n.

Ventajas:

  • Procedimiento estadísticamente válido simple

  • Exacto

  • Más fácil de implementar y verificar que se hayan seleccionado los tweets correctos

  • No sesgado y representativo, incluso más probable que en un esquema de Muestreo Aleatorio Simple, en el contexto actual, ya que también se ordena por hora de llegada, donde este último criterio es probablemente relevante, ya que distribuye la muestra durante el día. Como tal, puede, por ejemplo, aislar trabajadores, mayormente inactivos de 9 AM a 5 PM, versus no trabajadores incluido estudiantes activos de 3 PM a 8 PM (después de la escuela), y adultos mayores activos más tarde en la noche.

Por lo tanto, la aplicación de Muestreo Sistemático simple, fácil de implementar, no sesgado y representativo aquí probablemente también resulta en una distribución de la muestra sobre importantes demografías de edad y clases de ingresos.

Nota: Cómo se llega al mejor tamaño de muestra 's' es un tema importante, mejor discutido por separado.

[EDIT] Un punto importante que es debidamente señalado por esta referencia educativa, para citar:

No tienes una lista completa, por lo que el muestreo aleatorio simple no se aplica...

Entonces, técnicamente el empleo de un esquema de muestreo aleatorio simple, para evaluar las características de la población principal, es válido cuando se tiene una lista completa de la población sobre la cual submuestrear. Este NO es el caso con una serie continua de tweets generados que constituyen un subconjunto del universo de tweets. Por lo tanto, inferencias sobre la población principal y, en particular, la cuestión de si es representativa de la 'muestra total', implicando la población principal, solo pueden ser contestadas de manera discutible aquí por un esquema de muestreo aleatorio simple. Sin embargo, la misma fuente afirma la validez del muestreo sistemático en tal contexto, para citar:

Dado que no tenemos acceso a la lista completa, simplemente párate en una esquina y selecciona cada 10ma* persona que pase.

*Por supuesto, elegir 10 aquí es solo un ejemplo. Dependería del número de estudiantes que típicamente pasan por ese lugar y qué tamaño de muestra se necesitaba.

0voto

N7N9 Puntos 15

Lo que quieres es una muestra que sea representativa en cuanto a los temas que vas a codificar manualmente.

En primer lugar, quieres asegurarte de que tu procedimiento de codificación no esté sesgado. Esto es realmente importante porque una muestra representativa es inútil si tu procedimiento de codificación está sesgado. Por lo tanto, necesitas al menos dos codificadores independientes para codificar los tweets (por lo general solo una parte de los tweets que vas a codificar), y una prueba para evaluar la coherencia entre los resultados de codificación de los codificadores independientes (como el coeficiente alfa de Krippendorff).

Dicho esto, en tu caso, el universo está compuesto por 14,000 tweets y una muestra aleatoria evitaría por definición sesgos sistemáticos en la selección de tweets. Sin embargo, podrías considerar un muestreo más sistemático para asegurarte de que cada día de la semana y cada hora del día estén representados correctamente. Por ejemplo, podrías muestrear un cierto número de tweets por horas, para cada hora del día, todos los días en tu conjunto de datos. En estudios de medios también existe un procedimiento consistente en crear una semana construida, donde los datos de cada día se muestrean para el mismo día a lo largo de muchas semanas. En cuanto a los tweets, este método ha sido comparado con el muestreo aleatorio simple encontrando que este último funciona mejor.

En general, puedes encontrar muchos ejemplos en la literatura basados en datos de medios y también en datos de Twitter. Si quieres estar realmente seguro de la adecuación de tu estrategia de muestra, podrías considerar un enfoque de validación cruzada. En lugar de recoger solo una muestra, recoges dos muestras. Sin olvidar codificar los tweets con codificadores independientes y verificar la validez de la codificación, primero codificas una muestra y luego la otra, y finalmente comparas las proporciones de códigos en las dos muestras. También podrías utilizar una prueba estadística para asegurarte de que las proporciones de códigos en las muestras no difieren demasiado. Sin embargo, un enfoque tan detallado podría ser inusual. Deberías tener en cuenta las mejores prácticas en tu campo.

También puedes intentar algunos métodos de clasificación supervisada que parecen funcionar bien incluso con una cantidad limitada de datos codificados manualmente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X