20 votos

Tres preguntas sobre el artículo "Ditch p-values. Utilice en su lugar intervalos de confianza Bootstrap"

No soy estadístico de formación y unos estudiantes me pidieron que les explicara un artículo titulado "Olvídese de los p-valores. Utilice intervalos de confianza Bootstrap". . El autor parece un académico prominente, sin embargo, estoy confundido acerca de algunos de los materiales allí. Por favor, ignore este mensaje si le parece demasiado largo. Lo reduje a sólo 3 preguntas, inferiré otras respuestas basadas en éstas.

Tomemos un ejemplo simplificado pero revelador: queremos determinar la nacionalidad de Robert. Hipótesis nula: H0, Robert es ciudadano estadounidense. Hipótesis alternativa: H1, no lo es. Nuestros datos: sabemos que Robert es senador estadounidense. Hay 100 senadores entre 330 millones de ciudadanos estadounidenses, por lo que bajo la hipótesis nula, la probabilidad de nuestros datos (es decir, el valor p) es 100 / 300.000.000 0,000000303. Según las reglas de significación estadística, podemos concluir con seguridad que se rechaza nuestra hipótesis nula y que Robert no es ciudadano estadounidense.

¿Estoy en lo cierto al afirmar que no se trata de un valor p (que es la probabilidad de ver éste o más valores extremos de una estadística de prueba)? ¿Es un procedimiento correcto para una prueba estadística? Tengo la corazonada de que es una situación incorrecta para aplicar pruebas de hipótesis, pero no puedo responder formalmente por qué.

Los valores P se inventaron en una época en la que todos los cálculos tenían que hacerse a mano, por lo que se basan en supuestos estadísticos simplificadores. En términos generales, suponen que el fenómeno observado obedece a una distribución estadística regular.

Parece que no, pero la pregunta es: ¿podemos decir que las pruebas no paramétricas también se basan en algunas distribuciones estadísticas regulares? No sólo tienen supuestos, sino que, técnicamente, sus estadísticos también siguen algunas distribuciones.

Supongamos que un responsable de la toma de decisiones empresariales está sopesando dos posibles acciones, A y B. Basándose en los datos observados, la probabilidad de obtener beneficios nulos o negativos es:

0,08 para la acción A

0,001 para la acción B

¿Debería el responsable de la toma de decisiones elegir la acción B basándose en estas cifras? ¿Y si le dijera que los intervalos de confianza intervalos de confianza son:

[-0,5m; 99,5m] para la acción A [0,1m; 0,2m] para la acción B La acción B puede tener una probabilidad menor de conducir a un resultado nulo o negativo, pero su valor esperado para la empresa es mucho menor, a menos que la empresa sea increíblemente reacia al riesgo.

¿Podemos decir, basándonos en los intervalos de confianza, cuál es el valor esperado? ¿Es en esta situación una decisión clara? Siempre he pensado que los intervalos de confianza no son necesariamente simétricos, pero aquí he empezado a dudar.

24voto

Auron Puntos 2123

"¿Estoy en lo cierto al afirmar que no se trata de un valor p (que es la probabilidad de ver este o más valores extremos de una estadística de prueba)?". Buena pregunta. Sí, tienes razón, no es un valor p. Es más, el ejemplo no es una prueba de hipótesis y no es una prueba de significación. Cualquiera que lo utilice como argumento para descartar los valores p o las pruebas de hipótesis está confundido o intenta confundir.

El supuesto valor p 100 / 300.000.000 es en realidad la probabilidad de que una persona que se observa que es ciudadano de EE.UU. ¡sea senador! No es un valor p e, irónicamente, se ha calculado suponiendo que la persona es un ciudadano.

El ejemplo de los senadores estadounidenses está mal adaptado del original de Cohen (1994) que pretendía poner en duda la utilidad de la "disyunción de Fisher" que subyace al uso probatorio de los valores p.

Sobre el argumento de Cohen contra la disyunción de Fisher:

[He tomado esta sección de un artículo (no publicado: ¡rechazado!) que escribí hace una década].

Un artículo muy citado que afirma que la disyunción de Fisher es defectuosa es el de Cohen (1994), que ilustra su afirmación estableciendo una analogía entre la disyunción de Fisher y este silogismo:

Si una persona es estadounidense, probablemente no sea miembro de Congreso.

Esta persona es miembro del Congreso.

Por lo tanto, es probable que no sea estadounidense.

Como dice Cohen, la última línea de su silogismo sobre el estadounidense es falsa aunque sería cierta si se omitiera la palabra "probablemente" de la primera y la última línea. Sin embargo, se equivoca al sugerir que es directamente análoga a la disyunción de Fisher. Como señaló Hagen (1997) en una respuesta publicada unos años después del artículo de Cohen, la hipótesis nula en la disyunción de Fisher se refiere a la población, mientras que en el silogismo de Cohen se refiere a la muestra.

La disyunción de Fisher tiene este aspecto cuando se pone en forma de silogismo:

  • Los valores P extremos de muestras aleatorias son raros bajo la nula nula.

  • Se ha observado un valor P extremo.

  • (Por lo tanto, o bien se ha producido un acontecimiento raro o bien la hipótesis nula
    es falso).

  • Por lo tanto, la hipótesis nula es probablemente falsa.

No hay nada malo en ello, aunque la línea entre paréntesis no es lógicamente necesaria. Cuando el silogismo de Cohen se modifica para referirse a la población, también es cierto:

  • Los miembros del Congreso son escasos entre la población estadounidense.

  • Esta persona es miembro del Congreso.

  • (Por lo tanto, o bien se ha producido un acontecimiento poco frecuente o bien esta persona no es una muestra aleatoria de la población de estadounidenses).

  • Por lo tanto, es probable que esta persona no sea una muestra aleatoria de la población de estadounidenses.

Si una persona seleccionada resulta ser miembro del Congreso, entonces se ha producido un acontecimiento inusual, o la persona es miembro de una población no estadounidense en la que los miembros del Congreso son más comunes, o la selección no fue aleatoria. Suponiendo que todos los miembros del Congreso estadounidense sean estadounidenses, no hay ninguna población no estadounidense relevante de la que la persona pudiera haber sido seleccionada al azar, por lo que la observación pone en duda el aspecto de la selección aleatoria. Cohen se equivoca al afirmar que la disyunción de Fisher carece de integridad lógica.

(Merece la pena señalar, entre paréntesis, que el artículo de Cohen contiene muchas críticas a las pruebas de hipótesis nulas que se refieren a problemas derivados del uso de lo que él describe como "decisiones dicotómicas mecánicas en torno al sagrado criterio del 0,05". En eso tiene razón, pero las críticas no se aplican directamente a los valores P utilizados como índices de evidencia).

Cohen, J. (1994). La tierra es redonda (p <.05). American Psychologist, 49(12), 997.

Hagen, R. L. (1997). Elogio de la prueba estadística de hipótesis nula. American Psychologist, 52(1), 15-24.

15voto

user164061 Puntos 281

1 No significan lo que la gente cree que significan

¿Estoy en lo cierto al afirmar que no se trata de un valor p (que es la probabilidad de ver éste o más valores extremos de una estadística de prueba)? ¿Es un procedimiento correcto para una prueba estadística? Tengo la corazonada de que es una situación incorrecta para aplicar pruebas de hipótesis, pero no puedo responder formalmente por qué.

Se podría argumentar que, técnicamente hablando, se trata de un valor p. Pero es un valor p bastante insignificante. Hay dos maneras de verlo como un valor p sin sentido

  • Neyman y Pearson sugieren que, para calcular el valor p, se elija la región en la que la razón de verosimilitud (entre la hipótesis nula y la hipótesis alternativa) sea la más alta. Se consideran "extremas" las observaciones en las que una desviación de la hipótesis nula significaría más probabilidad de hacer esa observación extrema.

    No ocurre lo mismo con el ejemplo del ciudadano estadounidense. Si la hipótesis nula "Robert es ciudadano estadounidense" es falsa, la observación "Robert es senador estadounidense" no es en absoluto más probable. Por tanto, desde el punto de vista del enfoque de Neyman y Pearson para la comprobación de hipótesis, éste es un tipo de cálculo muy malo para un valor p.

  • Desde el punto de vista de El enfoque de Fisher En las pruebas de hipótesis, se mide un efecto y el valor p sirve para cuantificar la significación estadística. Es útil como expresión de la precisión de un experimento.

    El valor p cuantifica la calidad/precisión del experimento en la cuantificación de la desviación. Desde el punto de vista estadístico, siempre se producirán efectos en cierta medida debido a fluctuaciones aleatorias en las mediciones. Se considera que una observación es estadísticamente significativa cuando se trata de una fluctuación de un tamaño suficientemente grande como para que tenga una baja probabilidad de que observemos un efecto aparente cuando en realidad no lo hay (cuando la hipótesis nula es cierta). Los experimentos que tienen una alta probabilidad de que observemos un efecto cuando en realidad no lo hay no son muy útiles. Para expresar esta probabilidad se utilizan los valores p.

    Al notificar los valores p, los investigadores pueden demostrar que sus experimentos tienen un ruido lo suficientemente pequeño y un tamaño de muestra lo suficientemente grande como para que los efectos observados sean estadísticamente significativos (es poco probable que sean sólo ruido).

    Los valores p de Fisher son una expresión del ruido y las fluctuaciones aleatorias, son una especie de expresión de la relación señal/ruido. El consejo es rechazar una hipótesis sólo cuando un efecto es suficientemente grande en comparación con el nivel de ruido.

    Aunque no exista una hipótesis alternativa desde el punto de vista de Fisher, cuando expresamos un valor p lo hacemos para medir algún efecto como desviación respecto a una hipótesis nula (sin efecto). Debe haber algún sentido de dirección que puede considerarse un efecto o un desviación .

    En el caso del experimento con la ciudadanía estadounidense, la medida de "Robert es senador de EE.UU." no tiene nada que ver con la medida de unos efecto o una desviación de la hipótesis nula. Expresar un valor p para ello carece de sentido.

El ejemplo con la ciudadanía estadounidense puede ser un poco raro y erróneo. Sin embargo, no pretende ser correcto. Se trata de demostrar que un simple valor p no es muy significativo ni correcto. Lo que tenemos que tener en cuenta también es la potencia de una prueba (y eso falta en el ejemplo de la ciudadanía estadounidense). Un valor p bajo puede estar bien, pero ¿y si el valor p fuera igual de bajo, o incluso más bajo, para una explicación alternativa? Si la prueba de hipótesis es mala, podríamos "rechazar una hipótesis" basándonos en un valor p (cutre) bajo cuando, en realidad, ninguna hipótesis alternativa es más adecuada.

Ejemplo 1: Supongamos que tienes dos tarros, uno con un 50% de monedas de oro y un 50% de monedas de plata, y el otro con un 75% de monedas de oro y un 25% de monedas de plata. Sacas 10 monedas de un tarro y todas son de plata, ¿qué tarro tenemos? Podríamos decir que las probabilidades a priori eran de 1:1 y las probabilidades a posteriori son de 1:1024. Podemos decir que es muy probable que el tarro sea el que tiene 50:50 oro:plata, pero ambas hipótesis son improbables cuando observamos 10 monedas de plata y quizá deberíamos desconfiar de nuestro modelo.

Ejemplo 2: Supongamos que tenemos datos distribuidos por una curva cuadrática y = a + c x^2. Pero los ajustas con una línea recta lineal y = a + b x. Cuando ajustamos un modelo encontramos que el valor p es extremadamente bajo para una pendiente cero (sin efecto) ya que los datos no coinciden con una línea plana (ya que siguen una curva cuadrática). Pero, ¿significa eso que debemos rechazar la hipótesis de que el coeficiente b es cero? La discrepancia, el valor p bajo, no se debe a que la hipótesis nula sea falsa, sino a que todo nuestro modelo es falso (esa es la conclusión real cuando el valor p es bajo, la hipótesis nula y/o el modelo estadístico son falsos).

2 Se basan en supuestos ocultos

Parece que no, pero la pregunta es: ¿podemos decir que las pruebas no paramétricas también se basan en algunas distribuciones estadísticas regulares? No sólo tienen supuestos, sino que, técnicamente, sus estadísticos también siguen algunas distribuciones

El objetivo de las pruebas no paramétricas es no hacer suposiciones sobre los datos. Pero la estadística que calculamos puede seguir alguna distribución.

Ejemplo: Nos preguntamos si una muestra es mayor que otra. Digamos que las muestras están emparejadas. Entonces, sin saber nada de la distribución, podemos contar cuál de los pares es mayor. Independientemente de la distribución de la población de la que se ha tomado la muestra, este estadístico de signos seguirá una distribución binomial.

Por tanto, lo importante de las pruebas no paramétricas no es que la estadística que se calcula no tenga distribución, sino que la distribución de la estadística es independiente de la distribución de los datos.

El punto de este "Se basan en suposiciones ocultas" es correcto. Sin embargo, es un poco duro y esboza los supuestos en un sentido limitado (como si los supuestos fueran solo simplificaciones para facilitar los cálculos).

De hecho, muchos modelos son simplificaciones. Pero yo diría que las distribuciones paramétricas siguen siendo útiles, incluso cuando hoy en día tenemos mucha más capacidad de cálculo y las simplificaciones no son necesarias. La razón es que las distribuciones paramétricas son no siempre simplificaciones.

  • Por un lado: El bootstrapping u otras simulaciones pueden acercarse al mismo resultado que un cálculo, y cuando el cálculo hace suposiciones, aproximaciones y simplificaciones entonces el bootstrapping puede incluso hacerlo mejor.

  • Por otro lado: La distribución paramétrica, si es cierta, te da una información que el bootstrapping no te puede dar. Cuando sólo se dispone de una pequeña cantidad de datos, no se puede obtener una estimación adecuada de los valores p o de los intervalos de confianza. Con las distribuciones paramétricas puedes llenar ese vacío.

    Ejemplo: si tiene diez muestras de una distribución, puede estimar el cuantil en múltiplos del 10%, pero no podrá estimar cuantiles más pequeños. Si usted sabe que la distribución puede ser aproximada por alguna distribución (basado en la teoría y el conocimiento previo tales suposiciones podrían no ser malas) entonces usted puede utilizar un ajuste con la distribución paramétrica para interpolar y extrapolar las diez muestras a otros cuantiles.

    Ejemplo 2: La representación de las pruebas paramétricas como útiles únicamente para facilitar los cálculos es un argumento de hombre de paja. No es cierto porque dista mucho de ser la única razón. La principal razón por la que la gente utiliza pruebas paramétricas es porque son más potentes. Compare, por ejemplo, la prueba paramétrica t con la prueba no paramétrica U de Mann-Whitney. La elección de la primera no se debe a que el cálculo sea más sencillo, sino a que puede ser más potente.

3 Desvían la atención de las cuestiones reales

¿Podemos decir, basándonos en los intervalos de confianza, cuál es el valor esperado? ¿Es en esta situación una decisión clara? Siempre he pensado que los intervalos de confianza no son necesariamente simétricos, pero aquí he empezado a dudar.

No, los intervalos de confianza no proporcionan información completa. En su lugar, debe calcular alguna función de coste que cuantifique todas las consideraciones de la decisión (lo que requiere la distribución completa).

Pero los intervalos de confianza pueden ser una indicación razonable. El paso de una estimación puntual única a un intervalo es una gran diferencia y añade toda una nueva dimensión a la representación.

Tu crítica aquí es también exactamente el punto del autor del blogpost. Usted critica que los intervalos de confianza no proporcionan información completa. Pero las medias 0,08 para la acción A y 0,001 para la acción B tienen incluso menos información que los intervalos de confianza, y eso es lo que señala el autor.

Este tercer punto es más una cuestión de estimación puntual frente a estimación por intervalos. Quizá los p-valores promuevan el uso de estimaciones puntuales, pero es un poco exagerado utilizarlo como crítica contra los p-valores. El ejemplo ni siquiera es un caso que trate sobre p-valores y sí sobre una posterior bayesiana para dos situaciones.

13voto

GenericTypeTea Puntos 27689

El autor del artículo adolece de no entender que las pruebas de hipótesis y los intervalos de confianza sirven para fines inferenciales diferentes:

  • El intervalo de confianza (bootstrap o de otro tipo) sirve para proporcionar un rango plausible de estimaciones para un parámetro objetivo .

  • La prueba de hipótesis sirve para tomar una decisión sobre la existencia o ausencia de pruebas de una afirmación específica sobre un parámetro objetivo.

4voto

tchen Puntos 1344

1. Ejemplo de ciudadanía

Parece una prueba pobre pero válida. Tiene sentido con un p-valor de corte extremo $\alpha = 0$ . De este modo, sólo rechazaríamos a aquellos ciudadanos cuya profesión no se encuentre en ningún lugar de Estados Unidos. Así que podríamos decir "Robbert no puede ser ciudadano estadounidense porque es un terrorista suicida y no hay terroristas suicidas en Estados Unidos", una conclusión válida. Lo mismo en términos de comprobación de hipótesis: " $p = 0$ por lo que se rechaza la hipótesis nula (es imposible obtener una muestra observada de H0)". Los distintos valores de corte de p son entonces sólo umbrales de compromiso sobre lo estrictos que queremos ser.

2. valores p, cálculos a mano e hipótesis

Los valores p no están vinculados a cálculos distintos del recuento del número de ocurrencias al generar muestras para la hipótesis nula. Y esa generación puede realizarse mediante experimentos físicos en el mundo real. Además, podemos utilizar los valores p para probar cosas no cuantificables o subjetivas. Así que los valores p pueden valer por sí mismos como construcción filosófica sin necesidad de cálculos concretos, y no tiene sentido afirmar que se inventaron en la época en que los cálculos se realizaban a mano.

Y los valores p en sí mismos no suponen nada. Son las pruebas estadísticas las que tienen supuestos. E incluso ellos son muy flexibles al respecto. A veces, por ejemplo, la suposición es sobre la distribución de muestreo del parámetro, y no las propias observaciones.

Además, y creo que el autor lo reconoce en el texto, las pruebas no paramétricas también hacen una gran suposición: suponen que la muestra observada representa todos los puntos de la población. La cuestión es simplemente qué suposición está más justificada. Un caso obvio y simplista es el de las frecuencias. Supongamos que queremos comprobar si la probabilidad de que se produzca un defecto de fabricación es superior al 5%, obtenemos 10 muestras y todas ellas carecen de defectos. ¿Qué sería bootstrapping con 10 ceros?

3. 3. Intervalos de confianza

Los intervalos de confianza son la otra cara del valor p. Con el valor p se comprueba lo sorprendente que es la muestra observada dada una hipótesis nula teórica y con un intervalo de confianza se define un conjunto (sobre todo un intervalo) de hipótesis que no serían sorprendentes dada la muestra observada. Me resulta extraño que tanta gente critique una cosa por la otra.

4. Otros

Otro punto en contra de los valores p en el texto es que los empresarios, a quienes se comunicaban los valores, no los entendían. Pero la respuesta es sencilla: no muestres a la gente cosas que puedan malinterpretar. Y realmente dudo que alguien que no esté familiarizado con los entresijos de un valor p sea capaz de interpretar los intervalos de confianza sin cometer errores. "El trabajo de un valor p es evitar que hagas el ridículo y no reportes cosas como significativas" - citando a alguien (olvidé quién, lo siento).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X