45 votos

Son más pequeños los valores de p más convincente?

He estado leyendo en $p$-valores, error de tipo 1 tasas de interés, niveles de significación, el cálculo de la potencia, los tamaños del efecto y el de Fisher vs Neyman-Pearson para el debate. Esto me ha dejado la sensación de un poco abrumado. Pido disculpas por la pared de texto, pero sentí que era necesario proporcionar una visión general de mi actual comprensión de estos conceptos, antes de que me mudé a mi actual preguntas.


De lo que he reunido, una $p$-valor es simplemente una medida de la sorpresa, la probabilidad de obtener un resultado al menos tan extremo, dado que la hipótesis nula es verdadera. Fisher originalmente destinado a ser una medida continua.

En el Neyman-Pearson marco, se selecciona un nivel de significación de antemano y utilizar esto como una (arbitrario) punto de corte. El nivel de significación es igual a la de tipo 1 de la tasa de error. Es definido por el largo plazo de la frecuencia, es decir, si se va a repetir un experimento 1000 veces y la hipótesis nula es verdadera, cerca de 50 de los experimentos resultado en un significativo efecto, debido a la variabilidad del muestreo. Al elegir un nivel de significación, estamos protegiendo a nosotros mismos en contra de estos falsos positivos con una cierta probabilidad. $P$-valores que tradicionalmente no aparecen en este marco.

Si nos encontramos con un $p$-valor de 0.01 esto no significa que el tipo 1 de la tasa de error es de 0.01, el error de tipo 1 se indica a priori. Creo que este es uno de los principales argumentos en Fisher vs N-P debate, porque el $p$-los valores son presentados a menudo como 0.05*, 0.01**, 0.001***. Esto podría inducir a error a las personas a decir que el efecto es significativo en un determinado $p$-valor, en lugar de en un significado determinado valor.

También me doy cuenta de que el $p$-valor es una función del tamaño de la muestra. Por lo tanto, no puede ser utilizado como una medida absoluta. Un pequeño $p$-valor podría apuntar a un pequeño, sin relevante efecto en una muestra de gran experimento. Para contrarrestar esto, es importante llevar a cabo una alimentación/cálculo del tamaño del efecto al determinar el tamaño de la muestra para el experimento. $P$-valores que nos digan si hay un efecto, no es lo grande que es. Ver Sullivan 2012.

Mi pregunta: ¿Cómo puedo conciliar el hecho de que la $p$-valor es una medida de la sorpresa (el más pequeño = más convincente), mientras que al mismo tiempo no puede ser visto como una medida absoluta?

Lo que yo estoy confundido acerca de, es la siguiente: ¿se puede tener más confianza en un pequeño $p$-valor que una grande? En el Fisherian sentido, yo diría que sí, estamos más sorprendidos. En el N-P marco, la elección de un menor nivel de significación implicaría estamos protegiendo a nosotros mismos más fuertemente en contra de los falsos positivos.

Pero, por otro lado, $p$-valores dependen del tamaño de la muestra. Ellos no son una medida absoluta. Así que no podemos simplemente decir 0.001593 es más importante que 0.0439. Sin embargo, esto lo que estaría implicado en Fisher marco: hemos de ser más sorprendió a tal extremo valor. Incluso hay discusión sobre el término altamente significativas, siendo un nombre inapropiado: ¿por Qué está mal para referirse a los resultados como "muy significativo"?

He oído que $p$-valores en algunos campos de la ciencia sólo se consideran importantes cuando son más pequeños que los 0.0001, mientras que en otros campos de valores de alrededor de 0.01 ya son considerados altamente significativa.

Preguntas relacionadas con:

28voto

zowens Puntos 1417

Son más pequeños, $p$- los valores más convincente? Sí, por supuesto que son.

En el Pescador marco, $p$-valor es una cuantificación de la cantidad de evidencia contra la hipótesis nula. La evidencia puede ser más o menos convincentes; los más pequeños de la $p$-valor, la más convincente es. Tenga en cuenta que en cualquier experimento con un tamaño de muestra fijo $n$, $p$- valor es monótonamente relacionados con el tamaño del efecto, como @Scortchi muy bien señala en su respuesta (+1). Pequeños en $p$-valores corresponden a mayores tamaños del efecto; por supuesto que son más convincente!

En el Neyman-Pearson marco, el objetivo es obtener una decisión binaria: o bien la evidencia es "importante" o no lo es. Eligiendo el umbral de $\alpha$, le garantizamos que no vamos a tener más de $\alpha$ de falsos positivos. Tenga en cuenta que diferentes personas pueden tener diferentes $\alpha$ en cuenta cuando se busca en los mismos datos; tal vez cuando leí un artículo de un campo que yo soy escéptico acerca de, yo, personalmente, no considerar como "significativo" de los resultados con, por ejemplo,$p=0.03$, incluso a pesar de que los autores de la llamada significativo. Mi personal $\alpha$ se puede establecer a $0.001$ o algo así. Obviamente la parte inferior a la reportada $p$-valor, el más escéptico de los lectores será capaz de convencer!

Actualmente el estándar de la práctica es la combinación de Fisher y Neyman-Pearson enfoques: si $p<\alpha$, entonces los resultados son los llamados "importantes" y el $p$-valor es [exactamente o aproximadamente] reportado y se utiliza como una medida de convincingness (marcando con estrellas, el uso de expresiones como "muy significativo", etc.); si $p>\alpha$ , luego los resultados se denominan "no significativos" y que es.

Esto es usualmente referido como un "enfoque híbrido", y de hecho lo es híbrido. Algunas personas argumentan que este híbrido es incoherente; tiendo a estar en desacuerdo. ¿Por qué sería válido hacer dos válidas cosas al mismo tiempo?

Leer más:

12voto

jasonmray Puntos 1303

No sé lo que se entiende por menor p-valor de ser "mejor", o por ser "más confianza". Pero con respecto a los valores de p como una medida de cómo sorprende que debe ser por los datos, si nos creemos la hipótesis nula, parece bastante razonable; el p-valor es una función monotónica de la estadística de prueba de que usted ha elegido para medir la discrepancia con la hipótesis nula en una dirección que le interesa, ponderación con respecto a sus propiedades en virtud de un procedimiento de muestreo de una población o a la asignación aleatoria de los tratamientos experimentales. "Importancia" se ha convertido en un término técnico para referirse a los valores de p' estar por encima o por debajo de un cierto valor especificado; por lo tanto, incluso aquellos que no tienen interés en la especificación de los niveles de significación y aceptación o rechazo de la hipótesis tienden a evitar frases como "muy significativo"—mera adhesión a la convención.

Con respecto a la dependencia de los valores de p en el tamaño de la muestra y el tamaño del efecto, tal vez alguna confusión surge porque, por ejemplo, podría parecer que 474 jefes de 1000 tiros deberían ser menos sorprendente, de 2 de cada 10 para alguien que piensa que la moneda es justo, después de todo la proporción de la muestra sólo se desvía un poco del 50% en el caso anterior—sin embargo, los valores de p son acerca de la misma. Pero cierto o falso no admite grados; el p-valor es hacer lo que se le pide: a menudo, los intervalos de confianza para un parámetro son realmente lo que se necesita para evaluar cómo, precisamente, un efecto que se ha medido, y la práctica o teórica de la importancia de la estimación de su magnitud.

1voto

user3479957 Puntos 1

Gracias por los comentarios y lecturas sugeridas. He tenido un poco más de tiempo para reflexionar sobre este problema y creo que he logrado aislar mis principales fuentes de confusión.

  • Inicialmente pensé que había una dicotomía entre la visualización de la p-valor como una medida de sorpresa frente a afirmar que no es una medida absoluta. Ahora me doy cuenta de que estas afirmaciones no se contradicen necesariamente. El ex nos permite ser más o menos confiados en la exageración (unlikeness incluso?) de un efecto observado, en comparación con otros hipotéticos resultados del mismo experimento. Mientras que el último solo nos dice que lo que podría ser considerado como un convincente p-valor en un experimento, podría no ser impresionante en todos los que en otro, por ejemplo, si los tamaños de muestra diferentes.

  • El hecho de que algunos campos de la ciencia, utilizar una línea de base diferente de fuertes valores de p, podría ser un reflejo de la diferencia en común tamaños de muestra (astronomía, la clínica, los experimentos psicológicos) y/o un intento de transmitir la magnitud del efecto en un p-valor. Pero la segunda es incorrecta combinación de los dos.

  • La significación es una pregunta de sí/no basado en el alfa que fue elegido antes del experimento. Un p-valor de lo que no puede ser más importante que otro, ya que son más pequeños o más grandes que el nivel de significación elegido. Por otro lado, una menor p-valor será más convincente que una más grande (para una muestra similar tamaño/idéntico experimento, como se ha mencionado en el primer punto).

  • Los intervalos de confianza inherentemente transmitir el tamaño del efecto, por lo que una buena opción para protegerse de los problemas mencionados anteriormente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X