5 votos

Significación estadística con datos insuficientes

Hay un artículo en Wikipedia que habla de los valores p . En la sección de ejemplos da este ejemplo:

Una tirada de un par de dados

Supongamos que un investigador lanza un par de dados una vez y asume la hipótesis nula de que los dados son justos, no están cargados ni se inclinan por ningún número/tirada/resultado específico; son uniformes. La estadística de la prueba es "la suma de los números lanzados" y es de una cola. El investigador lanza los dados y observa que ambos dados muestran 6, lo que arroja una estadística de prueba de 12. El valor p de este resultado es 1/36 (porque bajo el supuesto de la hipótesis nula, la estadística de prueba se distribuye uniformemente) o aproximadamente 0,028 (la estadística de prueba más alta de 6×6 = 36 resultados posibles). Si el investigador asumiera un nivel de significación de 0,05, este resultado se consideraría significativo y se rechazaría la hipótesis de que los dados son justos.

En este caso, una sola tirada proporciona una base muy débil (es decir, datos insuficientes) para sacar una conclusión significativa sobre los dados. Esto ilustra el peligro de aplicar ciegamente el valor p sin tener en cuenta el diseño del experimento.

Evidentemente, no se publicaría un artículo sobre el resultado, pero el valor p es estadísticamente significativo. ¿Cuáles son las medidas para evitar este tipo de "error"?

PS. Sería estupendo que se presentaran tanto un método frecuentista como uno bayesiano.

2 votos

Debería ser "nivel de significación de '0,05'" y no '0,005'

3 votos

Los valores P son geniales, ¿no?

2 votos

1voto

sergiol Puntos 129

Este es, en efecto, un punto débil de las pruebas de hipótesis... permite hacer afirmaciones que suenan "fuertes" aunque los datos sean débiles.

Ahora bien, si 100 personas realizaran todas este mismo experimento débil, se esperaría que unas 3 personas obtuvieran este resultado. Así que, si los dados estaban sesgados hacia el 6, entonces esto es una evidencia para esa hipótesis (o al menos que no son justos).

Este es un experimento y una conclusión totalmente válidos. Sin embargo, está incompleto. Lo que queremos saber es el rango de sesgos que admite este resultado (hablaré más de esto en un segundo) y la probabilidad de que puedas reproducirlo.

El rango de probabilidades apoyadas es más difícil de obtener que una simple decisión de Rechazar/No Rechazar para una prueba de hipótesis. Tendrá que especificar un modelo para las probabilidades (que puede ser cualquier cosa, desde un simple modelo saturado de 6 parámetros, hasta un modelo en el que la probabilidad de sacar cada número es una función de algún parámetro subyacente $\theta$ .) Lo que encontraría es que este resultado, aunque estadísticamente significativo, pone límites muy, muy flojos en el rango de probabilidades reales de cara a cada dado. Aquí es donde se mostraría la debilidad.

La segunda forma de evaluar esto es utilizar un modelo bayesiano con un Dirichlet uniforme sobre las probabilidades a priori para cada cara del dado. Entonces, se puede calcular el probabilidad predictiva posterior (ver (1) en la p.4) de sacar un 12 y compararlo con el modelo nulo de probabilidades de cara iguales. Verá que el "golpe" real en la probabilidad de sacar un 12 aumentará sólo ligeramente, no, digamos, de $3\%$ a $10\%$ . Este es otro indicio de la debilidad del resultado.

1voto

Steve S Puntos 783

Tienes más posibilidades de sacar más de 3 seises dobles en 45 tiradas que de sacar un seis doble en una sola tirada por lo que el autor rollo-único-proporciona-una-base-muy-débil argumento es en sí mismo bastante débil.

De hecho, no importa lo sofisticado Si el nivel de significación elegido es del 5%, el 5% de las veces se obtendrán resultados estadísticamente significativos sólo por azar.


Nota al margen : Los bayesianos no utilizan los valores p. De hecho, algunos bayesianos incluso pondrán una mirada enloquecida si se menciona siquiera "valores p".

0 votos

Los bayesianos no utilizan valores p; hasta donde yo sé, utilizan factores. Pero esos fallan igual de miserablemente aquí si los modelos que se comparan son (probabilidad de 6 = 1/6) frente a (probabilidad de 6 = 5/6)

0 votos

Así que la pregunta es ¿cuáles son algunos procedimientos para asegurarse de que su diseño experimental recogerá suficientes datos o será lo suficientemente sofisticado?

0 votos

Los bayesianos comienzan con "probabilidades a priori" y luego actualizan estas "probabilidades a priori" (para formar "probabilidades a posteriori") a medida que aparece nueva información.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X