19 votos

¿Modelo de muestreo para datos de crowdsourcing?

Estoy trabajando en una aplicación abierta de encuestas sanitarias, pensada para ser utilizada en países en desarrollo.

La idea básica es que la encuesta las entrevistas son crowdsourced - Las realizan voluntarios no organizados que envían los datos de los formularios de las entrevistas que han realizado utilizando sus dispositivos móviles, y cada encuesta va acompañada de los datos GPS del lugar de la entrevista.

Las encuestas tradicionales elaboradas por los organismos gubernamentales se suelen llevar a cabo utilizando algún modelo de muestreo estándar, normalmente un modelo de muestreo probabilístico. Esto requiere una gran planificación centralizada que no siempre puede llevarse a cabo. (Menciono esto para situar mi pregunta en el contexto adecuado)

Podemos decir que un voluntario realizará un muestreo de conveniencia en su zona. Entrevistará a un número arbitrario de personas a las que pueda llegar.

El problema básico es: ¿Cómo se puede comprender y caracterizar el modelo de muestreo global de este sistema de encuesta? ¿Existen metodologías o modelos compuestos para tratar estos casos?

16voto

StasK Puntos 19497

Respuesta corta: Se trata de una muestra de conveniencia. No se puede hacer nada para justificarla.

Una respuesta algo más larga En este caso, usted está en el mismo barco que muchas redes sociales que realizan sus encuestas internas sin tener mucha idea de quién respondería a una encuesta de una sola pregunta que aparecería aleatoriamente en Facebook o Google+... excepto que, a diferencia de estos gigantes, usted no tiene ningún dato sobre los que no respondieron. La comunidad de investigadores de encuestas y opinión pública no suele ver con buenos ojos este tipo de trabajo, ya que no está nada claro cómo se pueden generalizar los resultados de estas muestras tan sesgadas a la población total (si es que se pueden generalizar). Se puede intentar reponderar según los datos demográficos conocidos, pero entonces se acabará con una variación de ponderaciones que van desde 1 para una persona que sólo se representa a sí misma hasta 1.000.000 asignadas al único varón de más de 70 años de la población que sabe utilizar un ordenador (y que probablemente no sea representativo del resto de 1.000.000 de varones de más de 70 años, de todos modos).

Lecturas complementarias: "Cómo mentir con estadísticas" se abre con un capítulo sobre muestras sesgadas. Si puedes leerlo y no llorar de frustración por el diseño de tu muestra, puedes seguir adelante. Si recurre a voluntarios, la muestra puede estar sesgada hacia poblaciones jóvenes y urbanas con mayor acceso a aparatos electrónicos. Lo mismo digo, "Qué es una encuesta elaborado por Fritz Scheuren, ex presidente de la American Statistical Association, se abre con la imagen de Harry Truman, cuya victoria no habría podido predecirse con las sesgadas técnicas de sondeo que existían en la época.

Hay algunas investigaciones sobre poblaciones de difícil acceso . Un proyecto muy conocido fue un estudio sobre el exceso de muertes en Irak en el que se muestrearon zonas geográficas y, en cada una de ellas, el médico local intentaba solicitar entrevistas a todos los hogares de la manzana. Ha habido críticas crecientes a este diseño, pero por muy comprometido que fuera, seguía teniendo su componente de muestreo. Véanse los artículos en Lancet (como probablemente sepan, no se puede tener más prestigio en el mundo de la medicina) http://dx.doi.org/10.1016/S0140-6736(04)17441-2 y http://dx.doi.org/10.1016/S0140-6736(06)69491-9 .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X