12 votos

Los intervalos de confianza vs tamaño de la muestra?

Estoy totalmente nuevo para las estadísticas y el campo de los intervalos de confianza. Así que esto podría ser muy trivial o incluso sonar estúpido. Le agradecería si usted me podría ayudar a entender o me apunte a alguna literatura/texto/blog que lo explica mejor.

Veo en varios sitios de noticias como CNN, Fox news, Politico etc sobre sus cabezas relación con los estados unidos la carrera Presidencial de 2012. Cada organismo lleva a cabo algunas de las encuestas y los informes de algunas estadísticas de la forma:

CNN: La popularidad de Obama es un X%, con un margen de error de +/- 1%. Tamaño de la muestra de 600. FOX: La popularidad de Obama es Y%, con un margen de error de +/- y1%. Tamaño de la muestra de 800. XYZ: La popularidad de Obama es un Z%, con un margen de error de +/- z1%. Tamaño de la muestra de 300.

Aquí están mis dudas:

  1. ¿Cómo puedo decidir que una confianza? Debe estar basado en el intervalo de confianza, o debo suponer que ya que Fox tiene un mayor tamaño de muestra, la estimación es más fiable? Hay una relación implícita entre la confianza itnervals y tamaño de la muestra tal que especificar uno evita la necesidad de especificar los otros?

  2. Puedo determinar la desviación estándar de los intervalos de confianza? Si es así, es válido siempre o sólo válido para ciertas distribuciones (como el de Gauss)?

  3. ¿Hay alguna manera de "fusión" o "combinar" las tres estimaciones y obtener mi propia estimación, junto con los intervalos de confianza? ¿Qué tamaño de la muestra debería reclamar en ese caso?

He mencionado CNN/Fox sólo para explicar mejor mi ejemplo. No tengo ninguna intención de iniciar una Demócratas vs Republicanos debate aquí.

Por favor me ayudan a comprender las cuestiones que he planteado.

6voto

Eero Puntos 1612

Además de Pedro de respuesta, aquí están algunas de las respuestas a sus preguntas específicas:

  1. En quién confiar también va a depender de quién está haciendo la encuesta y lo que el esfuerzo que ponen en conseguir una buena calidad de la encuesta. Un mayor tamaño de la muestra no es mejor si la muestra no es representativa, tomando una gran encuesta, pero sólo en uno, no swing estado no iba a dar muy buenos resultados.

    Existe una relación entre el tamaño de la muestra y la amplitud del intervalo de confianza, pero otras cosas que también influyen en el ancho, tales como cómo cerrar el porcentaje es 0, 1 o 0.5; lo que el sesgo de ajustes se utilizan, cómo se tomó la muestra (de la agrupación, la estratificación, etc.). La regla general es que el ancho del intervalo de confianza será proporcional a $\frac{1}{\sqrt{n}}$, de modo de reducir a la mitad el intervalo de tiempo que usted necesita 4 veces el tamaño de la muestra.

  2. Si usted sabe lo suficiente acerca de cómo la muestra fue recogida y qué fórmula se utiliza para calcular el intervalo, entonces usted podría resolver para la desviación estándar (usted también necesita saber el nivel de confianza que se utiliza, generalmente 0.05). Pero la fórmula es diferente para estratificado vs clúster de muestras. También la mayoría de las encuestas fijamos en los porcentajes, por lo que el uso de la distribución binomial.

  3. Hay maneras para combinar la información, pero por lo general, necesita saber algo acerca de cómo las muestras fueron tomadas, o estar dispuesto a hacer algún tipo de supuestos acerca de cómo los intervalos fueron construidos. Un enfoque Bayesiano es una de ellas.

5voto

Zizzencs Puntos 1358

Este es un tema enorme, pero básicamente hay dos problemas:

1) Precisión - esto es determinado por el tamaño de la muestra. Grandes muestras de más de estimaciones precisas con menor error estándar y el más estricto de los intervalos de confianza

2) Sesgo de que, en las estadísticas, no necesariamente tiene las connotaciones negativas que ocurre en otros lugares. En las encuestas, se intenta obtener una muestra al azar de XXXX (a veces votantes, a veces votantes registrados). Pero, ellos no. Algunas encuestas de opinión, sólo el uso de las líneas de tierra. Diferentes grupos de personas son más o menos propensos a responder. Los diferentes grupos son más o menos probable que acabo de colgar.

Así, todos los encuestadores el peso de sus respuestas. Es decir, tratan de ajustar sus resultados para que coincida con los hechos conocidos acerca de los votantes. Pero todos lo hacemos un poco diferente. Por lo tanto, incluso con el mismo sondeo de los datos de entrada, se dará diferentes números.

En quién confiar? Bueno, si usted mira Nate Silver trabajo en 538, ha de calificaciones de cómo precisa encuestadores fueron en elecciones anteriores. Pero eso no significa que será igual de preciso ahora.

1voto

mat_geek Puntos 1367

Esto cae en el área de la encuesta de muestreo. En principio, los métodos de trabajo debido a que se utiliza la variación aleatoria. Aquí están las cosas que pueden diferir en las encuestas basadas en decisiones subjetivas.

  1. Marco de muestreo. ¿A qué grupo de votantes debo sacar mi muestra?

  2. ¿Cómo puedo manejar la volatilidad de los indecisos votantes que pueden cambiar su opinión sobre Obama vs Romney basada en la de ayer encuesta o próximas semanas?

  3. Pedro ha tocado en diagonal. El literary digest encuesta de 1936 fue un desastre. Es elegido el candidato Republicano más de FDR debido a que el marco de muestreo se basó en la selección aleatoria de números de teléfono. En 1936, sólo la parte superior de la clase media y los ricos tenían teléfonos. Ese grupo fue dominada por los Republicanos, que tienden a votar por el candidato Republicano. Roosevelt ganó por goleada de conseguir sus votos de los pobres y la clase media, que tienden a ser mucho más que un grupo de Demócratas! Que ilustrar el sesgo debido a la sutil mala elección de un marco de muestreo.

  4. Encuesta de muestreo ofertas con poblaciones finitas. El tamaño de la población N. Decir una muestra aleatoria simple se extrae de la población y tiene un tamaño de n. Por simplicidad se supone que solo Obama y Romney están ejecutando. La proporción de votos Obama obtendría de este marco de muestreo es de un promedio de variables binarias (por ejemplo, 1 si el encuestado elige Obama y 0 para Romney). La varianza de la media muestral para esta variable es [p(1-p)/n][N-n]/N donde p es la verdadera población proportin que escogería a Obama. [N-n]/N es la corrección por población finita. en la mayoría de las encuestas N es mucho mayor que N y la correcta puede ser ignorado. Mirando a p(1-p)/n vemos que la varianza de baja con n. Así que si n es grande, el intervalo de confianza a un nivel de confianza dado se obtienen pequeñas. Es esta la varianza (realmente su raíz cuadrada) que se utiliza para obtener el margen de error que se obtiene de la comilla.

Los encuestadores otro estudio con samplers y especialistas en estadística de la Oficina del Censo de EEUU disponen de estas herramientas estadísticas a su disposición, y que hacen más compleja y precisa de los métodos (clúster de muestreo aleatorio y estratificado muestreo al azar, para mencionar un par de métodos).

Cuando el modelado de sus supuestos son válidos los métodos funcionan muy bien. Encuestas de salida es un buen ejemplo. En el día de las elecciones va a ver las redes con precisión proyecto ganador en casi cada estado mucho tiempo antes de que cerca de recuento final. Eso es porque preelection día de la variabilidad se ha ido. Ellos saben que históricamente cómo la gente tiende a votar y se puede determinar seleccionado recintos de una manera que evita el sesgo. Las redes difieren en algún momento. Esto puede ser debido a una competencia para elegir al ganador, por delante de los demás mentalidad. También en casos raros puede ser debido a que el voto está muy cerca (e.g de la Elección Presidencial de 2000 en Florida).

Espero que esto dará una idea más clara de lo que pasa. Ya no vemos los errores gruesos como "Dewey derrota a Truman", en 1948 o el Literario Digerir fiasco de 1936. Pero las estadísticas no es perfecto y estadísticos que nunca se puede decir que son ciertas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X