6 votos

Combinando los resultados de dos encuestas

Alguien ha encuestado a un número de personas y ha puesto los resultados en una base de datos (Encuesta 1). Cada observación tiene información adicional que, para cualquier subpoblación (solo hombres, solo jóvenes, etc.), da una estimación a nivel nacional del número de personas en esa subpoblación, así como un intervalo de confianza para esa estimación. Como era de esperarse, la suma de las estimaciones para subgrupos mutuamente excluyentes (número de hombres más número de mujeres) da la estimación para el número total de personas en la población.

No sé cómo se llevó a cabo la encuesta, el método de muestreo, etc. Todo lo que tengo es la base de datos. Se asume que todos los conteos estimados provenientes de la base de datos siguen una distribución log-normal.

Otra persona ha realizado otra encuesta (Encuesta 2). Se entrevistó a muchas más personas. Esta encuesta no tenía como objetivo hacer ninguna estimación, sino simplemente dar información sobre las personas que fueron entrevistadas.

Para la población en su totalidad, y para cualquier subpoblación, la Encuesta 2 da un subconteo, dado que no se entrevistó a todas las personas de la población. A menudo, la estimación basada en la Encuesta 1 es mayor que el conteo de la Encuesta 2, pero ese no siempre es el caso.

Pregunta: ¿Cuál es la mejor manera de combinar la información de las dos encuestas? Estoy bien con una solución aproximada.

Si solo tuviera la Encuesta 1, mi estimación puntual para el número de personas en la subpoblación A sería E(A). Sin embargo, a partir de la Encuesta 2, sé que A > $min(A)$. ¿Debería entonces estar calculando E(A|A > $min(A)$)?

Hacerlo lleva a una contradicción. Es decir, que la suma de los conteos estimados en subpoblaciones mutuamente excluyentes resulta ser mayor que el conteo estimado para toda la población.

Gracias por tu ayuda. Espero que esto sea claro. De lo contrario, por favor pregunta, ¡intentaré explicar! :-)

4voto

Peter Puntos 1

Para poder estimar a una población a partir de una encuesta, es necesario entender el método de muestreo. El método de muestreo se utiliza para crear los pesos de muestreo, los cuales luego se utilizan básicamente para multiplicar las estimaciones de la encuesta y convertirlas en estimaciones de la población. Hay todo tipo de formas de crear pesos, pero necesitan basarse en el diseño de la encuesta.

Si no tienes la información del diseño de la encuesta y/o no sabes cómo se construyeron los pesos, te faltarán piezas clave de información necesarias para crear las estimaciones a nivel de población. En particular, para las dos encuestas, necesitas tener confianza en que el método de muestreo fue apropiado, por ejemplo, que no se utilizaron cuotas para dejar de muestrear personas de una combinación particular de edad/sexo, o que no se utilizó una muestra de conveniencia. Si alguna de las encuestas tuvo estas características particulares en el diseño, cualquier estimación de población (e incluso estimaciones de subpoblación) estará equivocada.

Hay algunos aspectos de tu pregunta que no entiendo. Por ejemplo, ¿por qué deseas combinar las dos encuestas - ¿hicieron preguntas diferentes? Y las encuestas no muestrean rutinariamente toda la población - cuando eso sucede, lo llamamos censo, así que no entiendo tu comentario sobre la segunda encuesta.

¿Puedes proporcionar más información sobre el diseño de la encuesta, y también si hay pesos en los datos y cómo son estos pesos?

Actualización para claridad: No estoy seguro de que la encuesta 2 agregue algo más que sesgo a la encuesta 1. En tu pregunta mencionas que la encuesta 2 no estaba destinada a estimar nada - eso parece indicar que la encuesta 2 tiene un diseño de muestra de conveniencia. Al tratar con muestras de conveniencia, no es posible ajustarlos a la población porque el método de muestreo utilizado es sesgado en lugar de aleatorio. Por ejemplo, una encuesta de compradores de supermercados a las 10 am en un día laborable está sesgada (subestimará trabajadores a tiempo completo y sobreestimará mujeres adultas, por ejemplo). Con una muestra sesgada no es posible ajustar los datos para tener en cuenta el sesgo porque la probabilidad de ser muestreado es desconocida para algunos grupos, e incluso puede ser cero para otros, pero no sabes cuáles son esas probabilidades. Por lo tanto, es imposible construir pesos para tener en cuenta el muestreo cuando se ha utilizado una muestra sesgada.

Debido a que parece que la encuesta 1 tiene un mejor diseño para la estimación de la población, recomiendo que utilices la encuesta 1 para tus estimaciones.

3voto

StasK Puntos 19497

Parece que tu encuesta 2 es una muestra conveniente. No sé para qué podría ser útil. Sin una estrategia de muestreo clara, no puedes generalizar a la población de ninguna manera significativa. En el mejor de los casos, podrías utilizar la Encuesta 2 para construir un modelo de cómo se relacionan las variables, y luego intentar mejorar tus estimaciones de la Encuesta 1 utilizando algún tipo de estimación de regresión generalizada, pero para lograrlo, necesitas asegurarte de que tu muestra no esté sesgada.

Por ejemplo, supongamos que quieres predecir cuántos impuestos sobre la renta se pueden recaudar en la economía. Supongamos que utilizas algo como la Encuesta Actual de la Población de EE. UU. como tu encuesta 1. Esta es una encuesta muy bien diseñada, con pesos, postestratificación, campanas y silbatos, lo que sea. Luego también tienes una encuesta que distribuyes en las oficinas locales de desempleo, y solo esperas que la mayoría de las personas escriban algo. Esta es tu encuesta 2. No sabes qué tan bien llega a tu población. Lo más probable es que llegues a aquellos que buscan empleo más activamente y que visitan las oficinas locales con más frecuencia. No llegarás a los trabajadores frustrados que dejan de buscar trabajo, ni a aquellos que no son elegibles para los beneficios de desempleo pero de lo contrario estarían buscando trabajo, algunos trabajadores estacionales y varias otras personas. Sin embargo, no sabes nada de eso: alguien simplemente te entregó la Encuesta 2 y dijo: "Esta es nuestra base de datos rica, hazle sentido". Bueno, esta es una muestra sesgada para empezar. Si ajustas un modelo de regresión de las ganancias individuales usando este conjunto de datos, es probable que obtengas estimaciones incorrectas: la muestra censura a aquellos con mayores ganancias en trabajos permanentes a tiempo completo, y probablemente tiene mucha más gente con baja educación de la que hay en la población en general. Entonces, ¿cuál es el uso de la Encuesta 2 para ti? Como dije, dudo que tenga mucho valor en este propósito.

No ayuda en absoluto que no des ninguna información de antecedentes sobre de qué se trata la encuesta, cuáles son las unidades de muestreo, etc. Entiendo que probablemente estés limitado por tu empleador, o tu cliente, o cualquier forma de supervisor que tengas. Pero sin más detalles, todo lo que podemos darte es algún tipo de consejo vago. Puedo señalarte literatura técnica sobre cómo combinar información de varias encuestas (usando métodos bayesianos o de verosimilitud empírica), pero no estoy seguro de que ayude mucho en este punto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X