Alguien ha encuestado a un número de personas y ha puesto los resultados en una base de datos (Encuesta 1). Cada observación tiene información adicional que, para cualquier subpoblación (solo hombres, solo jóvenes, etc.), da una estimación a nivel nacional del número de personas en esa subpoblación, así como un intervalo de confianza para esa estimación. Como era de esperarse, la suma de las estimaciones para subgrupos mutuamente excluyentes (número de hombres más número de mujeres) da la estimación para el número total de personas en la población.
No sé cómo se llevó a cabo la encuesta, el método de muestreo, etc. Todo lo que tengo es la base de datos. Se asume que todos los conteos estimados provenientes de la base de datos siguen una distribución log-normal.
Otra persona ha realizado otra encuesta (Encuesta 2). Se entrevistó a muchas más personas. Esta encuesta no tenía como objetivo hacer ninguna estimación, sino simplemente dar información sobre las personas que fueron entrevistadas.
Para la población en su totalidad, y para cualquier subpoblación, la Encuesta 2 da un subconteo, dado que no se entrevistó a todas las personas de la población. A menudo, la estimación basada en la Encuesta 1 es mayor que el conteo de la Encuesta 2, pero ese no siempre es el caso.
Pregunta: ¿Cuál es la mejor manera de combinar la información de las dos encuestas? Estoy bien con una solución aproximada.
Si solo tuviera la Encuesta 1, mi estimación puntual para el número de personas en la subpoblación A sería E(A). Sin embargo, a partir de la Encuesta 2, sé que A > $min(A)$. ¿Debería entonces estar calculando E(A|A > $min(A)$)?
Hacerlo lleva a una contradicción. Es decir, que la suma de los conteos estimados en subpoblaciones mutuamente excluyentes resulta ser mayor que el conteo estimado para toda la población.
Gracias por tu ayuda. Espero que esto sea claro. De lo contrario, por favor pregunta, ¡intentaré explicar! :-)