¿Qué pasa si usted toma una muestra aleatoria y se puede ver claramente no es representativa, ya que en una reciente pregunta. Por ejemplo, ¿qué pasa si la distribución de la población que se supone que ser simétrica alrededor de los 0 y los muestra al azar ha desequilibrado positivos y negativos de las observaciones, y el desequilibrio es estadísticamente significativo, ¿dónde deja esto a usted? Lo razonable declaraciones se puede hacer sobre la población a partir de una muestra sesgada? Lo que es razonable de un curso de acción en una situación así? No importa cuando, en nuestra investigación, podemos notar este desequilibrio?
Respuestas
¿Demasiados anuncios?La respuesta dada por la MLS (utilizar importancia de muestreo) es sólo tan buena como la de los supuestos que usted puede hacer acerca de sus distribuciones. La principal fortaleza de la población finita de muestreo de paradigma es que es una técnica no paramétrica, como no hacer suposiciones acerca de la distribución de los datos (validez) inferencias sobre la población finita parámetros.
Un enfoque correcto para la muestra de los desequilibrios que se llama post-estratificación. Usted necesita para romper la muestra a la no superposición de clases (post-estratos) y, a continuación, reweight estas clases según las cifras de población. Si su población es conocida por tener una mediana de 0, entonces usted puede reweight el positivo y negativo de las observaciones, de modo que sus proporciones ponderadas convertido en 50-50: si tuvieras la mala suerte de SRS con 10 negativo observaciones y 20 observaciones positivas, que daría a los negativos el peso de 15/10 = 1.5, y el positivo, 15/20 = 0.75.
Formas más sutiles de la muestra de calibración no existen, en el que se puede calibrar la muestra a satisfacer más limitaciones generales, tales como tener una media de una variable continua a ser igual al valor específico. La restricción de simetría es bastante difícil trabajar con él, a pesar de que podría ser factible, también. Puede ser Jean Opsomer tiene algo en esto: él ha estado haciendo un montón de núcleo de trabajo para la estimación de los datos de la encuesta.
Soy el Miembro Junior aquí, pero yo diría que el descarte y empezar de nuevo siempre es la mejor respuesta, si usted sabe que su muestra es significativamente representativas, y si usted tiene una idea de cómo la representatividad del muestreo surgió, en primer lugar, y cómo evitar, en lo posible, la segunda vez alrededor.
Qué bien hará a probar una segunda vez si usted probablemente va a terminar en el mismo barco?
Si al hacer la recopilación de datos una vez más no tiene sentido o es prohibitivamente costoso, usted tiene que trabajar con lo que tienes, intentando compensar el unrepresentativeness a través de la estratificación, la imputación, la más elegante de modelado, o lo que sea. Usted necesita claramente se nota que compensado de esta manera, ¿por qué crees que es necesario, y por qué creo que funcionó. Entonces el trabajo de la incertidumbre que surgió de su compensación por todo el camino a través de su análisis. (Para hacer una de sus conclusiones, menos seguro, ¿verdad?)
Si usted no puede hacer eso, usted necesita para dejar el proyecto en su totalidad.
Esta es una respuesta parcial que asume sabemos que tanto la distribución de p a partir de la cual se tomaron muestras, y el verdadero (o deseado) distribución p. Además, supongo que estas distribuciones son diferentes. Si las muestras fueron obtenidos a través de p, pero se ven mal: las muestras están siendo imparcial y cualquier adaptación (tales como la eliminación de outliers) es probable que agregar sesgo.
Supongo que usted quiere encontrar alguna estadística de sp=E{f(X)|X∼p}. Por ejemplo, s(p) podría ser la media de la distribución, en caso de que f es la función identidad. Si había muestras {x1,…,xn} obtenidos a través de p, usted podría simplemente usar sp≈1nn∑i=1f(xi). Sin embargo, suponga que sólo tienen muestras que se obtuvieron (desde el mismo dominio) con una distribución de muestreo de xi∼q. Entonces, se puede obtener una estimación insesgada de sp por la ponderación de cada una de las muestras de acuerdo a la probabilidad relativa de que se produzca en cada distribución: sp≈1nn∑i=1p(xi)q(xi)f(xi). La razón por la que esto funciona es que E{p(X)q(X)f(X)\medio|X∼p}=∫p(X)f(X)dx, como se desee. Esto se llama importancia de muestreo.