11 votos

Estadística argumento de por qué 10,000 cabezas de 20.000 tiros sugiere datos no válidos

Digamos que estamos en repetidas ocasiones arrojar una moneda, y sabemos que el número de cabezas y colas deben ser aproximadamente iguales. Cuando vemos un resultado como 10 cabezas y 10 colas para un total de 20 tiros, creemos que los resultados y se inclinan a creer que la moneda es justo.

Cuando visite a un resultado como 10000 cabezas y 10000 colas para un total de 20000 tiros, de hecho, me pondría en duda la validez del resultado (¿el experimentador falsos los datos), como sé que esto es más raro que, por ejemplo un resultado de 10093 jefes y 9907 colas.

¿Qué es la estadística argumento detrás de mi intuición?

9voto

jldugger Puntos 7490

Un subjetivista Bayesiano argumento es prácticamente la única forma (desde un punto de vista estadístico) se podría ir sobre la comprensión de su intuición, que es--bien--el tema de un psicológicos de la investigación, no una estadística. Sin embargo, es obviamente injusto, y por lo tanto inválida--el uso de un enfoque Bayesiano para argumentar que un investigador falsificado los datos. La lógica de esto es perfectamente circular: se trata de decir "basado en mis creencias anteriores sobre el resultado, me parece un resultado increíble, y por lo tanto, usted debe han engañado." Tal ilógico de auto-servicio argumento, obviamente, no estar de pie en la sala de un tribunal o en un proceso de revisión de pares.

En su lugar, podríamos tomar una punta de Ronald Fisher crítica de los experimentos de Mendel y de la conducta formal de la prueba de hipótesis. Por supuesto no es válido para una prueba post hoc de hipótesis con base en el resultado. Pero los experimentos han de ser replicado para ser creído: que es un principio del método científico. Así que, después de haber visto un resultado de lo que pensamos que podría haber sido forjadas, podemos formular una hipótesis apropiada a prueba de futuro (o adicionales) resultados. En este caso, la región crítica estaría compuesto de un conjunto de resultados muy cercanos a la expectativa. Por ejemplo, una prueba en la $\alpha$ = 5% nivel de la vista de cualquier resultado entre 9,996 y 10,004 como sospechoso, porque (a) de esta colección que está cerca de nuestra hipótesis de "falsos" los resultados y (b) bajo la hipótesis nula de no fingir (inocente hasta que se demuestre su culpabilidad en la corte!), un resultado de esta gama tiene sólo un 5% (en realidad 5.07426%) de probabilidad de ocurrencia. Además, podemos poner esta aparentemente ad hoc enfoque en un chi-cuadrado de contexto (la de Fisher) simplemente por el cuadrado de la desviación entre la proporción observada y la proporción esperada, luego de invocar el lema de Neyman-Pearson en una prueba una cola en la baja de la cola y la aplicación de la aproximación Normal a la distribución Binomial.

A pesar de que tal prueba no puede demostrar la falsedad, puede ser aplicado a los futuros informes de que el experimentador para evaluar la credibilidad de sus afirmaciones, sin hacer y adversos insoportable suposiciones basadas en su intuición solo. Esto es mucho más justa y rigurosa que la invocación de un Bayesiano argumento para implicar a alguien que podría ser perfectamente inocente y sólo pasó a ser tan mala suerte que llegaron a un hermoso resultado experimental!

4voto

Eric Pohl Puntos 1258

La conclusión que saque será MUY dependiente de el antes de que usted elija para la probabilidad de la trampa y el estado de la probabilidad de que, dado el flipper es mentira, x cabezas, se informó.

Poner la mayoría de la masa en P(10000 cabezas informado|mentira) es un poco de sentido común en mi opinión. A menos que el reportero es ingenuo, no puedo imaginar a nadie informa de que tipo de falsificada de datos (en gran parte por las razones que usted menciona en el post original, es demasiado sospechoso para la mayoría de la gente.) Si la moneda es realmente injusto y el flipper se informe falsificado datos, creo que la más razonable (y muy aproximada) antes en los resultados reportados podría ser un uniforme discreta antes de P(X cabezas informado|mentira) = 1/201 para los enteros {9900, ..., 10100} y P(x cabezas informado|mentira) = 0 para todo x. Supongamos que usted piensa que la probabilidad anterior de la mentira es 0.5. A continuación, algunas probabilidades posteriores son:

P(mentira|9900 jefes reportado) = P(mentira|10100 jefes reportado) = 0.70;

P(mentira|9950 jefes reportado) = P(mentira|10050 jefes reportado) = 0.54;

P(mentira|10000 cabezas reportado) = 0.47.

La mayoría de cantidades razonables de informes de los jefes de una feria de la moneda será el resultado de la sospecha. Sólo para mostrar cómo de sensible probabilidades posteriores a su priores, si el estado de la probabilidad de que la trampa se reduce a 0.10, entonces las probabilidades posteriores se convierte en:

P(mentira|9900 jefes reportado) = P(mentira|10100 jefes reportado) = 0.21;

P(mentira|9950 jefes reportado) = P(mentira|10050 jefes reportado) = 0.11;

P(mentira|10000 cabezas reportado) = 0.09.

Entonces, creo que el original (y altamente valorado respuesta) podría ampliarse un poco; en ningún caso debe a la conclusión de que los datos se desvirtúa sin fondo teniendo en cuenta la información previa. También, sólo de pensar en esto intuitivamente, parece que las probabilidades posteriores de la mentira son influenciadas más por el estado de la probabilidad de mentir, en lugar de por el estado de la distribución de los jefes informó dado que el flipper está mintiendo (excepto a los priores que ponen toda su masa en un pequeño número de cabezas informó dado el flipper es mentira, como en mi ejemplo).

3voto

ashwnacharya Puntos 3144

Creo que su intuición es errónea. Parece que está de forma implícita la comparación de una sola, "muy especial" resultado (exactamente 10000 cabezas) con un conjunto de muchos de los resultados (todos "no especial" número de cabezas de cerca de 10000). Sin embargo, la definición de "especial" es una elección arbitraria basada en nuestra psicología. Cómo sobre binario 10000000000000 (8192 decimal) o Hexadecimal ABC (decimal 2748) - tendría que ser sospechosamente especial? Como Joris Meys comentado, el de Bayes argumento sería esencialmente el mismo para cualquier número de cabezas, lo que implica que cada uno de los resultados sería sospechoso.

Para ampliar el argumento un poco: quieres probar una hipótesis ("el experimentador está fingiendo") y, a continuación, elija un estadístico de prueba (número de cabezas). Ahora, es este estadístico de prueba adecuado para decir algo acerca de su hipótesis? Para mí, parece que el elegido de la prueba estadística no es de carácter informativo (no una función de un parámetro especifica como un valor fijo en la hipótesis). Esto se remonta a la pregunta ¿qué quieres decir con "hacer trampa". Si eso significa que el experimentador controla la moneda a voluntad, entonces esto no se refleja en la estadística de prueba. Creo que usted necesita para ser más preciso encontrar un indicador cuantificable, y por lo tanto hacer la pregunta susceptible de una prueba estadística.

2voto

jerhinesmith Puntos 5425

Me gusta Srikant la explicación, y creo que el Bayesiano idea es probablemente la mejor manera de abordar un problema como este. Pero aquí es otra manera de verlo sin Bayes: (en R)

dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)

que es acerca de 31.2 en mi sistema. En otras palabras, es más de 30 veces más probabilidades de ver 10 de los 20 que es ver a 10,000 de los 20.000, incluso con una moneda buena en ambos casos. Esta proporción aumenta sin límite como el tamaño de la muestra aumenta.

Esta es una especie de razón de verosimilitud enfoque, pero, de nuevo, en mi tripa esto se siente como una Bayesiana de la decisión, más que nada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X