41 votos

¿Por qué es más convincente que 6 de cada 10 600 de 1000?

Mira este fragmento de "El estudio de las habilidades de manual", Palgrave, 2012, por Stella Cottrell, página 155:

Porcentajes Aviso cuando los porcentajes se dan.
Supongamos, en cambio, el comunicado leído por encima:

El 60% de la gente prefiere las naranjas; el 40% dijo que prefiere las manzanas.

Este parece convincente: cantidades Numéricas se dan. Pero es la diferencia entre un 60% y 40% significativo? Aquí necesitamos saber cuántas personas fueron encuestadas. Si 1000 se pidió a las personas de las cuales 600 preferido naranjas, el número sería convincente. Sin embargo, si sólo el 10 se pidió a las personas, el 60% simplemente significa 6 personas preferido naranjas. "60%" suena convincente de una manera que "6 de cada 10" no. Como un lector crítico, usted necesita estar en el puesto de observación para los porcentajes de ser utilizado para hacer la insuficiencia de los datos se ve impresionante.

¿Qué es esta característica se denomina en estadística? Me gustaría leer más acerca de él.

56voto

David Puntos 41

Me gustaría lista otra intuitivo ejemplo.

Supongamos que le digo que puede predecir el resultado de cualquier tirón de la moneda. No creen y quieren poner a prueba mi capacidad.

Probado 5 veces, y tengo todo de ellos. ¿Crees que tengo la habilidad especial? Tal vez no. Porque me puede llegar a todos ellos a la derecha por casualidad. (En concreto, supongamos que la moneda es una moneda, y cada experimento es independiente, entonces puedo conseguir todos los derechos con $0.5^5\approx0.03$ con ningún super poder. Ver Shufflepants del enlace para una broma sobre ello).

Por otro lado, si usted me estaba probando gran número de veces, entonces es muy probable que lo puedo conseguir por casualidad. Por ejemplo, si se probó $100$ a veces, mi oportunidad de llegar a todos ellos a la derecha es $0.5^{100}\approx 0$.


El concepto estadístico que se llama el poder estadístico, de Wikipeida

El poder de un binario prueba de hipótesis es la probabilidad de que la prueba correctamente, se rechaza la hipótesis nula (H0) cuando la hipótesis alternativa (H1) es verdadera.

De vuelta a la super potencia en coin flip ejemplo, esencialmente desea ejecutar una prueba de hipótesis.

  • Hipótesis nula (H0): no tengo el super poder
  • Hipótesis alternativa (H1): tengo el super poder

Ahora, como pueden ver en el ejemplo numérico (prueba de mí 5 veces vs hacerme la prueba de 100 veces), La potencia estadística ha sido afectada por el tamaño de la muestra.

Más para leer aquí. (más técnico y basado en el t-test).

Una herramienta interactiva para entender el poder estadístico se puede encontrar aquí. Nota, la potencia estadística de los cambios con el tamaño de la muestra !

enter image description here

29voto

Pari Puntos 6

Pensar en términos de proporciones. Digamos que prefiere que una naranja es un éxito, prefiriendo una manzana es un fracaso. Por lo que su tasa de éxito promedio es $\mu = \frac{\text{# of sucesses}}{n}$ o en este caso.6

Se estima el error estándar de esta cantidad $\sqrt{\frac{\mu(1-\mu)}{n}}$. Para una muestra de tamaño pequeño (es decir, 10), el error estándar es $\approx .155$ pero de un tamaño de muestra de 1000, el error estándar es $\approx .0155$. Así que, básicamente, como se mencionó en los comentarios, "muestra el tamaño sí importa."

17voto

Mike Puntos 2072

Este concepto es una consecuencia de la ley de los grandes números. De Wikipedia,

De acuerdo a la ley, el promedio de los resultados obtenidos a partir de un gran número de ensayos debe estar cerca del valor esperado, y tienden a acercarse más a medida que más pruebas se realizan.

Los resultados de una muestra pequeña puede estar más lejos de la esperada valor que el de una muestra más grande. Y así, como se indica en la pregunta, uno debe ser cauteloso de los resultados calculados a partir de muestras pequeñas. La idea es que también se explica muy bien en este video de youTube.

6voto

AdamSane Puntos 1825

Estamos en la situación de la estimación de cierta cantidad de la población por cierta cantidad de la muestra. En este caso, estamos usando proporciones de muestra para estimar proporciones de la población, pero el principio es mucho más general.

Si se piensa en todas las observaciones en la muestra, tomando el valor de $1$ cuando tienen la característica de interés ("preferred naranjas con manzanas" en el ejemplo) y $0$ cuando no es así, entonces la proporción de $1$'s es la misma que la media del conjunto de la $0$ $1$ valores-así que usted puede ver fácilmente que una proporción de la muestra es en realidad un medio.

A medida que hacemos más y más muestras (utilizando el muestreo aleatorio), la muestra significa que tienden a converger a la media de población. (Esta es la ley de los grandes números).

Sin embargo lo que de verdad queremos tener una idea de lo lejos que podría ser (como podría ser representado por el ancho de un intervalo de confianza para la proporción, o por el margen de error, que normalmente es la mitad de un ancho).

Normalmente, el más datos tengas, menos incertidumbre que se tiene sobre alguna cantidad como un decir -- debido a que la desviación estándar de la distribución de la media muestral disminuye a medida que usted toma de muestras de mayor tamaño. [Imagine tomar muchas muestras diferentes de tamaño 4. La distribución de los medios es menos variable que la distribución de las observaciones originales-- la desviación estándar tienden a ser aproximadamente la mitad de grande. Ahora, si tomamos medio de muchas muestras diferentes de tamaño 400, la desviación estándar de la que debe ser mucho más pequeño de nuevo (sobre $\frac{_1}{^{20}}$th de la desviación estándar de las observaciones originales).

La desviación estándar de la distribución de la media muestral es una manera de medir la distancia típica de una media de la muestra es de la población, que está disminuyendo (disminuye cuando se $\frac{_1}{^n}$, como en los ejemplos anteriores).

Como resultado, estamos más seguros acerca de la precisión de nuestra estimación cuando la muestra es grande -- si nos repetimos el experimento de nuevo, otros medios sería cerca de la actual -- que agrupan a más y más fuerza, y porque (en este caso) nuestra estimación es imparcial, están agrupar juntos en torno a los valores que estamos tratando de estimar. Una sola media de la muestra se hace más y más información sobre donde la población podría ser.

4voto

Noah Witherspoon Puntos 35239

Una regla del pulgar para "contar" las estadísticas, tales como contar el número de personas que, como las naranjas, o contando el número de "clics" en un contador Geiger debido a la desintegración radiactiva, es que el margen de error para el recuento es más o menos la raíz cuadrada de la esperada recuento de valor. Estadísticas de conteo se conocen son las estadísticas de Poisson.

La raíz cuadrada de 6 es de 2,4-ish, con lo que el margen de error es de alrededor del 40% (2.4/6). La raíz cuadrada de 600 es de 24-ish, con lo que el margen de error es de alrededor de 4% (24/600). Es por eso que de haber contado 600 es más importante que contar 6. El error relativo es una décima parte.

Estoy siendo un poco descuidado acerca de la definición de margen de error. Es realmente el 1-valor de sigma, y no es un corte duro, pero es el rango donde se espera que la mayoría (68%) de las mediciones a mentir. Así que si esperas 6 naranja comedores, sería de esperar una serie de encuestas para darle la mayoría de los números del 4 al 8 de gama, como 6,6,5,6,7,2,4,6,3,5,6,6,7,6,10,8,6,5,6,6,9,3,7,8.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X