1 votos

Estimación de las verdaderas distribuciones a partir de una muestra de distribuciones

Me resulta difícil formular el siguiente problema. Consideremos una empresa que realiza una encuesta en varias ciudades de Estados Unidos para estimar el porcentaje de a la derecha personas y zurdo personas cada ciudad (podemos ignorar que los ambidiestros existen para este problema).

Se nos dice que los recuentos están sesgados (presumiblemente con el mismo sesgo en todas las ciudades), pero no sabemos cómo ni cuánto.

Las entradas son los recuentos de una larga lista de ciudades:

city, # right-handed people, # left-handed people
X,   100, 90
Y,   80,  75
Z,   90,  120
...

¿Cómo podemos estimación el verdadera distribución ¿se puede calcular el número de diestros y zurdos en cada ciudad a partir de estos datos, sabiendo que hay un sesgo en el método de muestreo? Busco soluciones tanto frecuenciales como bayesianas.

2voto

Dipstick Puntos 4869

En primer lugar, observe que su estimación depende del grado de sesgo de su muestra. Por ejemplo, digamos que está interesado en la altura media de la población y que toma muestras sólo de hombres y no de mujeres. Esta muestra le llevaría sin duda a resultados sesgados, ya que hay una diferencia de altura en ambos géneros. Así que en este tipo de casos no se podría hacer nada, ya que no se sabe nada de los casos que no fueron muestreados.

Si se conoce el sesgo se puede aplicar pesos de la encuesta para corregir esos sesgos. La idea general es asignar unas ponderaciones a las observaciones de forma que los casos infrarrepresentados tengan mayor importancia, mientras que los sobrerrepresentados tengan una importancia menor. Media ponderada es un ejemplo sencillo de este enfoque.

Si no tienes idea del sesgo de la muestra, un enfoque sería utilizar el método bootstrap que fue diseñado para estimar las distribuciones desconocidas. En el bootstrap se crean múltiples muestras bootstrap mediante un muestreo con reemplazo $N$ casos de $N$ observaciones en su conjunto de datos de la misma manera que muestreó sus datos de la población. Esto le permite aproximar la distribución (desconocida) subyacente a sus datos recreándola a partir de la muestra. Véase este hilo para entender mejor cómo funciona bootstrap, consulte el libros por Efron y Tibshirani (1993), y Davison y Hinkley (2009) y aquí encontrará un ejemplo . Con el bootstrap, si usted supiera más sobre su muestra, también podría utilizar pesos para corregir el sesgo. Sin embargo, el método no es perfecto y no puede utilizarse a ciegas .

El enfoque bayesiano para este caso sería también bastante sencillo: si $x_i$ son condes o diestros en $i = 1,...,N$ ciudades, donde $n_i$ son las poblaciones totales de las ciudades, entonces se podría asumir Distribución binomial para los recuentos

$$x_i \sim Binomial(n_i, p)$$

donde para el parámetro $p$ podría suponer un "pinchazo", $Uniform(0, 1)$ a priori (sin información) o informativo Beta anterior si tienes algunas suposiciones previas sobre la proporción. El uso de la información a priori le permite incluir información fuera de la muestra en su modelo (por ejemplo, sobre general número de diestros en la población), y así posiblemente corregir el sesgo, lo que no sería posible en el enfoque no bayesiano. La forma más sencilla de estimar este tipo de modelo sería con JAGS o Stan .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X