86 votos

En cuanto a los valores p, ¿por qué 1% y 5%? ¿Por qué no el 6% o el 10%?

En relación con p-valor s, me pregunto por qué $1$ % y $5$ % parecen ser el estándar de oro para "statistical significance" . ¿Por qué no otros valores, como $6$ % o $10$ %?

¿Existe alguna razón matemática fundamental para ello, o se trata simplemente de una convención muy extendida?

5 votos

¿Y si todo el mundo tuviera 12 dedos? Estaríamos contando en base 12, no en base 10. Y eso significa que el "1%" sería 1/144 o 0,006944444444.

84voto

AdamSane Puntos 1825

Si consulta las referencias que figuran a continuación, encontrará bastantes variaciones en el fondo, aunque hay algunos elementos comunes.

Esas cifras se basan, al menos en parte, en algunos comentarios de Fisher, en los que decía

(mientras se habla de un nivel de 1/20)

Es conveniente tomar este po si una desviación debe considerarse significativa o no. Las desviaciones que superan el doble de la desviación típica son se consideran formalmente significativas

$\quad$ Fisher, R.A. (1925) Estadísticas Métodos estadísticos para investigadores , p. 47

Por otra parte, a veces era más amplio:

Si uno de cada veinte d podemos, si lo preferimos, trazar la línea en una entre cincuenta (la punto del 2%), o en uno de cada cien (el punto del 1 por ciento). Personalmente, el autor prefiere establecer un nivel de significación bajo de significación en el punto del 5%, e ignorar por completo todos los resultados que no alcancen este nivel. Un hecho científico debe considerarse establecido experimentalmente si un experimento correctamente diseñado rara vez falla t este nivel de significación.

$\quad$ Fisher, R.A. (1926) Disposición de los experimentos de campo .
$\quad$ Revista del Ministerio de Agricultura, p. 504

Fisher también utilizó el 5% para una de las tablas de su libro, pero la mayoría de sus otras tablas tenían una mayor variedad de niveles de significación.

Algunos de sus comentarios han sugerido planteamientos más o menos estrictos (es decir, niveles alfa más bajos o más altos) en distintas situaciones.

Este tipo de debate ha dado lugar a una tendencia a elaborar tablas centradas en los niveles de significación del 5% y el 1% (y a veces con otros, como el 10%, el 2% y el 0,5%) a falta de otros valores "estándar" que utilizar.

Sin embargo, en este documento Cowles y Davis sugieren que el uso del 5%, o al menos algo parecido, se remonta más allá del comentario de Fisher.

En resumen, nuestro uso del 5% (y, en menor medida, del 1%) es más bien una convención arbitraria, aunque está claro que mucha gente parece creer que para muchos problemas están en el punto justo.

Tampoco hay razón particular en general.

Otras referencias:

Dallal, Gerard E. (2012). El Pequeño Manual de Práctica Estadística. - ¿Por qué 0,05?

Stigler, Stephen (diciembre de 2008). "Fisher y el nivel del 5%". Chance 21 (4): 12. disponible aquí

(Entre ellos, se obtiene una buena cantidad de antecedentes - parece que entre ellos hay un buen argumento para pensar que los niveles de significación al menos en el ámbito general del 5% - digamos entre el 2% y el 10% - han estado más o menos en el aire durante un tiempo).

38voto

Anthony Cramp Puntos 126

Tengo que dar una no-respuesta (igual que aquí ):

"... seguramente, Dios ama al .06 casi tanto como al .05. ¿Puede haber duda de que Dios ve la fuerza de la evidencia a favor o en contra de la nula como una función bastante continua de la magnitud de p?" (p.1277)

Rosnow, R. L., y Rosenthal, R. (1989). Los procedimientos estadísticos y la justificación del conocimiento en la ciencia psicológica. Psicólogo americano , 44(10), 1276-1284. pdf

El documento contiene algún debate más sobre esta cuestión.

11 votos

¿Y 0,055? :)

37 votos

@nico A nadie le gusta 0.055

22voto

StasK Puntos 19497

Creo que hay algo de psicología subyacente para el 5%. Tengo que decir que no recuerdo dónde lo aprendí, pero este es el ejercicio que solía hacer en todas las clases de introducción a la estadística.

Imagina que un desconocido se te acerca en un bar y te dice: "Tengo una moneda sesgada que sale cara más a menudo que cruz. ¿Le gustaría comprarme una para apostar con sus amigos y ganar dinero con ella?". Tú, vacilante, aceptas echarle un vistazo y lanzas la moneda digamos que 10 veces. Pregunta ¿Cuántas veces tiene que salir cara o cruz para convencerte de que es tendencioso?

A continuación, pido que levanten la mano: ¿quién estaría convencido de que la moneda está sesgada si la división es 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Bueno, las dos o tres primeras no convencerán a nadie, y la última convencería a todo el mundo; sin embargo, 2/8 y 1/9 convencerían a la mayoría. Ahora, si buscas en la tabla binomial, 2/8 es el 5,5%, y 1/9 es el 1%. QED.

Si alguien está impartiendo un curso de introducción a la licenciatura en este momento, le animo a que también realice este ejercicio y publique sus resultados como comentarios, para que podamos acumular un gran número de resultados de meta-análisis y publicarlos al menos en El Estadístico Americano El rincón de la enseñanza. Siéntase libre de variar el $n$ y condiciones unilaterales frente a bilaterales.

En otra respuesta, Glen_b citas Fisher proporcionar el debate sobre si estos números mágicos deben modificarse en función de la gravedad del problema, así que por favor no lo hagas "Hay un nuevo tratamiento para la leucemia de tu hermana, pero o la curaría en 3 meses o la mataría en 3 días, así que echemos unas monedas al aire" -- esto parecería tan tonto como el el infame cómic xkcd que ni siquiera a Andrew Gelman le gustó tanto.

Hablando de monedas y de Gelman, TAS publicó un artículo muy curioso de Gelman y Nolan titulado "Puedes cargar un dado, pero no puedes sesgar una moneda" La moneda, lanzada al aire o girada sobre una mesa, pasará aproximadamente la mitad del tiempo cara arriba y la otra mitad, cruz arriba, por lo que es difícil encontrar un mecanismo físico que pueda sesgar seriamente una moneda. (Está claro que se trata de una investigación originada en un pub, ya que experimentaron con tapones de botellas de cerveza). Por otro lado, cargar un dado es algo relativamente fácil de hacer, y les di a mis alumnos un ejercicio con unos cubos de madera de 1 cm de una tienda local de hobbies y papel de lija pidiéndoles que cargaran el dado y me demostraran que estaba cargado, lo que fue un ejercicio de Pearson. $\chi^2$ prueba de proporciones y su potencia.

5 votos

A menudo, los magos pueden controlar el lanzamiento de monedas. El estadístico-matemático-mago Persi Diaconis es conocido por ello (y por muchas otras cosas).

1 votos

@StasK - Hace unos años, hice una pregunta similar a la de tu segundo párrafo. Aquí tienes el enlace: stats.stackexchange.com/questions/7036/

0 votos

Bill, preguntaste por la potencia, esencialmente. Esta pregunta se refiere al nivel de la prueba.

9voto

jank Puntos 461

El 5% parece haber sido redondeado a partir del 4,56% por Fisher, correspondiente a "las áreas de cola de la curva más allá de la media más tres o menos tres errores probables" (Hurlbert & Lombardi, 2009).

Otro elemento de la historia parece ser la reproducción de tablas con valores críticos (Pearson et al., 1990; Lehmann, 1993). Pearson no dio permiso a Fisher para utilizar sus tablas (probablemente debido tanto al marketing que Pearson hacía de su propia publicación (Hurlbert & Lombardi, 2009) como a la naturaleza problemática de su relación.

Hurlbert, S. H., & Lombardi, C. M. (2009, octubre). Final collapse of the Neyman-Pearson decision theoretic framework and rise of the neoFisherian. En Annales Zoologici Fennici (Vol. 46, No. 5, pp. 311-349). Finnish Zoological and Botanical Publishing

Lehmann, E. L. (1993). Las teorías Fisher, Neyman-Pearson de comprobación de hipótesis: ¿Una teoría o dos? Journal of the American Statistical Association, 88(424), 1242-1249.

Pearson, E. S., Plackett, R. L., & Barnard, G. A. (1990). Student: a statistical biography of William Sealy Gosset. Oxford University Press, Estados Unidos.

Véase también: Gigerenzer, G. (2004). Estadísticas sin sentido. The Journal of Socio-Economics, 33(5), 587-606.

Hubbard, R., y Lindsay, R. M. (2008). Por qué los valores P no son una medida útil de la evidencia en las pruebas de significación estadística. Theory & Psychology, 18(1), 69-88.

6voto

Brandon Grossutti Puntos 140

Mi hipótesis personal es que 0,05 (o 1 entre 20) se asocia con un valor t/z de (muy cercano a) 2. Utilizar 2 está bien, porque es muy fácil detectar si el resultado es estadísticamente significativo. No hay otras confluencias de números redondos.

7 votos

Dudo que esto sea correcto. Por supuesto hay "confluencias de números redondos": ¿por qué no utilizar un valor crítico de $Z=1$ o $Z=3$ ¿Por ejemplo? Además, hace un siglo nadie se privaba de hacer extensas tablas de valores críticos, así que es difícil ver de dónde vendría la motivación.

0 votos

Porque 1 y 3 no te dan algo bonito, como "1 entre 20". Es bastante práctico que pueda detectar fácilmente que mi estimación es más del doble de mi error estándar (o no). Pero me gusta como teoría de la conspiración.

9 votos

Al contrario, ¡dan buenas cifras! Para una distribución normal, las probabilidades son aproximadamente $1/3$ , $1/20$ , $1/400$ y $1/16000$ para $z=1,2,3,4$ . Todas estas aproximaciones tienen una precisión superior a una cifra significativa, y la de "1 entre 20" es la peor de todas (1 entre 22 estaría mucho más cerca de la verdad).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X