9 votos

Cómo muestra cuando usted don ' t conocer la distribución

Soy bastante nuevo a la estadística (un puñado de principiante de nivel Uni cursos) y me estaba preguntando acerca de muestreo de desconocido distribuciones. Específicamente, si usted no tiene ninguna idea acerca de la distribución subyacente, ¿hay alguna manera de "garantizar" que usted obtenga una muestra representativa?

Ejemplo para ilustrar: digamos que usted está tratando de averiguar la distribución mundial de la riqueza. Para cualquier individuo dado, de alguna manera se puede averiguar su exacta de la riqueza; pero no se puede "probar" cada persona en la Tierra. Así que, digamos que usted muestra n = 1000 personas al azar.

  1. Si la muestra no incluye a Bill Gates, se podría pensar que no hay multimillonarios en existencia.

  2. Si la muestra incluía a Bill Gates, se podría pensar que los multimillonarios son más comunes de lo que realmente son.

En cualquier caso, usted realmente no puede decir cómo comunes o raros millonarios son; usted no puede ser capaz de decir si existe en absoluto.

Hace un mejor mecanismo de toma de muestras existen para un caso como este?

¿Cómo le digo a priori qué procedimiento de muestreo a utilizar (y cuántas muestras son necesarios)?

A mí me parece que usted podría tener que "muestra" un gran porcentaje de la población, a saber, con nada que se aproxime a la certeza razonable, cómo comunes o raros multimillonarios que están en el planeta, y que esto es debido a que la distribución subyacente ser un poco difícil trabajar con ellos.

9voto

Christian Hagelid Puntos 121

Estoy de acuerdo con tu afirmación de que "En cualquier caso, usted realmente no puede decir cómo comunes o raros millonarios son". Deje $f$ ser el desconocido fracción de multimillonarios en la población. Con un uniforme antes de $f$, la distribución posterior de los $f$ después $1000$ sorteos que resultó tener 0 multimillonarios que es una versión Beta(1,1001) de distribución, que tiene este aspecto: p(f|b=0)

Mientras que la distribución posterior de los $f$ después $1000$ sorteos que resultó tener 1 multimillonario es una versión Beta(2,1000) de distribución, que tiene este aspecto: p(f|b=1)

En ambos casos, usted puede estar bastante seguro de que $f < 0.01$. Usted podría pensar que no es lo suficientemente precisa. Pero en realidad 0.01 es bastante preciso para una muestra de tamaño 1000. La mayoría de las otras cantidades que usted podría estimar iba a ser menos precisa que este. Por ejemplo, la fracción de los hombres sólo podían ser estimada dentro de un rango de tamaño de 0.1.

7voto

Colin Wren Puntos 11

Hay dos cosas que usted podría hacer (por separado o en combinación)

El modelo de la cola

Uno de ellos es el modelo de la cola de la distribución, utilizando una distribución paramétrica. El poder de las leyes se conocen para adaptarse a la distribución de la riqueza, así que trate de una distribución de Pareto. Usted podría caber que la distribución de máxima verosimilitud, es decir, por la búsqueda de los parámetros que mejor representan tu ejemplo. O mejor, podría poner un Bayesiano de los priores de los parámetros, y calcular el total posterior.

Desafortunadamente, las leyes de poder son muy sensibles a los parámetros, y sin muchos de los grandes puntos de datos en la muestra, habrá una gran cantidad de incertidumbre sobre el exponente. Se estima que el número de multimillonarios será sensible a este parámetro, pero mucho menos que el promedio de la riqueza de los multimillonarios, por lo que la situación no es demasiado malo.

Importancia de muestreo

La otra es cambiar la forma de recolectar la muestra. Supongamos que usted sospecha (como debe ser) hay más millonarios per cápita en Monaco o de Zúrich que en Mogadishiu. Si usted sabe que la población de cada una de estas ciudades, usted puede recoger una muestra más grande en las ciudades, donde esperamos ver más multimillonarios, y uno más pequeño en los demás.

Por lo que dicen Zurich ha 400.000 personas y Mogadiscio 1,400,000 y queremos encuesta de 9.000 personas. Estamos interesados aquí en el número de millonarios, no millonarios.

Un imparcial de la muestra seleccionar 2.000 personas en Zúrich y 7.000 en Mogadiscio. Sin embargo, vamos a sesgo de la muestra por muestreo siete veces más a menudo a partir de Zurich. Así que vamos a "fingir" que Zurich ha 2,800,000 personas y ajustar más tarde. Esto significa que vamos a encuesta a 6.000 personas en Zúrich, en lugar de 2.000 y 4.000 en Mogadiscio.

Decir que el recuento de 21 de millonarios en nuestro Zurich de la muestra, y sólo 1 en nuestro Mogadiscio muestra. Ya tenemos más de muestreadas Zurich 7 veces, sólo se cuentan como 3 millonarios.

Este procedimiento va a disminuir la varianza de su estimador. También puede ser utilizado en conjunción con el primer método, en cuyo caso usted será el ajuste de la importancia de muestreo cuando el ajuste de una distribución paramétrica.

6voto

Alex Puntos 1

Creo que un buen método de muestreo se basa en el conocimiento previo del sistema. En su campo, usted tiene conocimiento acerca de los posibles sesgos que puedan afectar a la toma de muestras. Si no tienen ese conocimiento, usted puede adquirir desde la literatura.

En tu ejemplo, usted sabe que hay multimillonarios y que podría sesgo de muestreo. Así que usted puede decidir estratificar la muestra por nivel de educación, el país, el tipo de trabajo, etc. Hay varias opciones.

Vamos a probar con otro ejemplo. Su objetivo es determinar la abundancia de especies de ratones en un parque. En este parque, hay bosques y prados. Por la literatura, se sabe que los ratones son más abundantes en el bosque de los prados. Así que estratificar las muestras por esta característica. Hay otro procedimiento de muestreo, es posible, pero creo que su mejor información será a partir de la literatura existente.

Y si no hay literatura acerca de su campo ? Improbable, pero en ese contexto, me gustaría hacer un pre-estudio para ver qué factores deben ser tomados en cuenta para el muestreo.

2voto

JayD3e Puntos 141

Si una muestra es representativa o no tiene nada que ver con el observado las mediciones de la muestra. Una muestra es representativa si cada conjunto de unidades observacionales tiene la misma probabilidad de ser elegido como cualquier otro conjunto de la misma talla. Por supuesto que esto es difícil de hacer, a menos que usted puede obtener una enumeración completa de su espacio muestral. Suponiendo que usted puede conseguir que (a partir de los censos de datos, por ejemplo), una muestra aleatoria simple será el representante.

No importa cómo obtener la muestra, siempre habrá al menos tres fuentes de error a tener en cuenta:

error de muestreo: por la posibilidad de incluir Bill Gates en su muestra representativa. Métodos estadísticos, especialmente los anchos de los intervalos de confianza, etc. están diseñadas para cuidar de este, siempre que usted tiene algunas áspero conocimiento de la distribución en la mano (por ejemplo, de la normalidad, que la distribución de la riqueza definitivamente no posee).

el sesgo de muestreo: La muestra no era representativa. Ejemplo: Bill Gates tiene un número no cotizan en bolsa, por lo que su encuesta telefónica podría nunca llegar a él (a menos que utilice algo como "aleatorio de dígitos de marcación"). Este es un ejemplo extremo, pero el sesgo de muestreo está muy extendida. Una ocurrencia común es tomar en el sitio o la conveniencia de las muestras: Se muestra a los clientes del restaurante en el restaurante , así como el lugar, cuántas veces han estado allí, y si piensa regresar. Repita los clientes son mucho más propensos a ser muestreados de una vez, los clientes, y las muestras de este tipo puede ser muy parcial en sus actitudes.

el sesgo de respuesta: Las medidas son imprecisas. Esto puede surgieron de la nada, de un mal funcionamiento del medidor consciente de la mentira a efectos cuánticos (por ejemplo, Heisenberg del principio de incertidumbre).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X