72 votos

¿Es esta la solución al problema del valor p?

En febrero de 2016, la American Statistical Association publicó una declaración formal sobre la significación estadística y los valores p. Nuestro hilo sobre ello aborda ampliamente estas cuestiones. Sin embargo, ninguna autoridad ha ofrecido una alternativa eficaz universalmente reconocida, hasta ahora. La American Statistical Society (ASS) ha publicado su respuesta, p-valores: ¿Y ahora qué?

"El valor p no sirve para mucho".

Creemos que la ASA no fue lo suficientemente lejos. Es hora de admitir que la era de los p-valores ha terminado. Los estadísticos los han utilizado con éxito para desconcertar a los estudiantes universitarios, engañar a los científicos y embaucar a los editores de todo el mundo, pero el mundo está empezando a ver a través de esta artimaña. Tenemos que abandonar este intento de los estadísticos de principios del siglo XX de controlar la toma de decisiones. Tenemos que volver a lo que realmente funciona.

La propuesta oficial de la ASS es la siguiente:

En lugar de los valores p, el ASS aboga por el STOP (procedimiento SeaT-Of-Pants). Los antiguos griegos, los hombres del Renacimiento y todos los científicos utilizaban este método consagrado y comprobado hasta que llegó Ronald Fisher y arruinó todo. El STOP es sencillo, directo, basado en datos y autorizado. Para llevarlo a cabo, una figura de autoridad (un hombre mayor, por preferencia) revisa los datos y decide si están de acuerdo con su opinión. Cuando él decide que sí, el resultado es "significativo". De lo contrario, no lo es y todo el mundo debe olvidarse del asunto.

Principios

La respuesta aborda cada uno de los seis principios de la ASA.

  1. El STOP puede indicar la incompatibilidad de los datos con un modelo estadístico determinado.

    Nos gusta esta frase porque es una forma elegante de decir que la STOP responderá sí o no a cualquier pregunta. A diferencia de los valores p u otros procedimientos estadísticos, no deja lugar a dudas. Es la respuesta perfecta a los que dicen "¡no necesitamos ninguna apestosa hipótesis nula! ¿Qué es eso? Nadie ha podido averiguar nunca qué se supone que es".

  2. El STOP no mide la probabilidad de que una hipótesis sea cierta: en realidad decide si es cierta o no.

    Todo el mundo se confunde con las probabilidades. Al eliminar las probabilidades, el STOP elimina la necesidad de años de estudios universitarios y de posgrado. Ahora cualquiera (que sea lo suficientemente mayor y varón) puede realizar análisis estadísticos sin el dolor y la tortura de escuchar una sola clase de estadística o ejecutar un software arcano que arroja resultados ininteligibles.

  3. Las conclusiones científicas y las decisiones empresariales o políticas pueden basarse en el sentido común y en auténticas figuras de autoridad.

    De todos modos, las decisiones importantes siempre las han tomado las autoridades, así que admitámoslo y dejémonos de intermediarios. El uso del STOP liberará a los estadísticos para hacer lo que mejor se les da: utilizar los números para ofuscar la verdad y santificar las preferencias de quienes ostentan el poder.

  4. Una inferencia adecuada requiere información completa y transparencia.

    El STOP es el procedimiento estadístico más transparente y evidente que jamás se haya inventado: se miran los datos y se decide. Elimina todas esas confusas pruebas z, pruebas t, pruebas chi-cuadrado y procedimientos de sopa de letras (ANOVA! GLM! MLE!) utilizados por la gente para ocultar el hecho de que no tienen ni idea de lo que significan los datos.

  5. El STOP mide la importancia del resultado.

    Esto es evidente: si una persona con autoridad emplea el STOP, entonces el resultado debe ser importante.

  6. Por sí mismo, el STOP proporciona una buena medida de evidencia respecto a un modelo o hipótesis.

    No querríamos desafiar a una autoridad, ¿verdad? Los investigadores y los responsables de la toma de decisiones reconocerán que el STOP les proporciona toda la información que necesitan saber. Por estas razones, el análisis de datos puede terminar con el STOP; no hay necesidad de enfoques alternativos, como los valores p, el aprendizaje automático o la astrología.

Otros enfoques

Algunos estadísticos prefieren los llamados métodos "bayesianos", en los que un oscuro teorema publicado póstumamente por un clérigo del siglo XVIII se aplica sin pensar para resolver todos los problemas. Sus más destacados defensores admiten libremente que estos métodos son "subjetivos". Si vamos a utilizar métodos subjetivos, es obvio que cuanto más autoridad y conocimientos tenga el responsable de la toma de decisiones, mejor será el resultado. El STOP surge así como el límite lógico de todos los métodos de Bayes. ¿Por qué esforzarse en hacer esos cálculos horribles, y consumir tanto tiempo de ordenador, cuando puedes simplemente mostrar los datos al responsable y preguntarle cuál es su opinión? Fin de la historia.

Recientemente ha surgido otra comunidad que desafía el sacerdocio de los estadísticos. Se autodenominan "aprendices de máquinas" y "científicos de datos", pero en realidad no son más que piratas informáticos en busca de un estatus superior. La posición oficial de la ASS es que estos tipos deberían formar su propia organización profesional si quieren que la gente les tome en serio.


La cuestión

¿Es ésta la respuesta a los problemas que la ASA identificó con los valores p y las pruebas de hipótesis nulas? ¿Puede realmente unir los paradigmas bayesiano y frecuentista (como se afirma implícitamente en la respuesta)?

12 votos

"Donald Trump para juez supremo: ¡que las estadísticas vuelvan a ser grandes!".

16 votos

Está claro que STOP es un procedimiento subóptimo. Me sorprende que esto se le haya escapado a una organización de estudiosos tan estimada como la ASS. A saber, ¿por qué perder el tiempo mirando los datos en absoluto ? Sólo tiene que responder sí o no. Esta metodología ya se utiliza actualmente con gran éxito. Abundan los estudios de casos, sobre todo en Estados Unidos durante los años divisibles por 4.

0 votos

¿Te das cuenta de que este Sociedad Americana de Estadística ¿no es una organización real? (Era el nombre de la Asociación Americana de Estadística de noviembre de 1839 a febrero de 1840, pero eso apenas cuenta). STOP es una broma

20voto

eldering Puntos 3814

He estado defendiendo mi propio enfoque de la toma de decisiones estadísticas, llamado RADD: R oll A D amn D es decir. También aborda todos los puntos clave.

1) El RADD puede indicar la compatibilidad de los datos con un modelo estadístico determinado.

Si sacas un número más alto, está claro que las pruebas están más a favor de tu modelo. Una ventaja adicional es que, si deseamos aún más confianza, podemos lanzar un dado con más caras. ¡Incluso puedes encontrar dados de 100 caras si buscas lo suficiente!

2) El RADD puede decidir si una hipótesis es cierta o no.

Sólo tienes que tirar un dado de 2 caras, es decir, lanzar una moneda.

3) El RADD puede utilizarse para tomar decisiones empresariales o políticas

Reúna a un grupo de políticos en una sala y pídales que tiren los dados. El más alto gana.

4) El RADD es transparente.

El resultado puede registrarse y el propio dado puede conservarse para investigaciones posteriores*.

5) El RADD mide la importancia del resultado.

Obviamente, rodar más alto significa que ha ocurrido un acontecimiento muy importante.

6) El RADD proporciona una buena medida de la evidencia.

¿No dijimos que los rodillos más altos son mejores?

Así que no, STOP no es la respuesta. La respuesta es RADD.

9 votos

No hay que olvidar que puede garantizar el control del error de tipo I (a cualquier nivel deseado dado un dado de suficientes caras), por ejemplo, rechazando una hipótesis nula sólo cuando salga una de las 5 caras con el número más alto de un dado de 100 caras para lograr un porcentaje de error de tipo I del 5%.

3 votos

19voto

Dipstick Puntos 4869

Debo decir por mi experiencia que en la realidad empresarial STOP es el criterio de decisión por defecto, preferido a $p$ -valores y otros métodos frecuentistas o bayesianos. Desde el punto de vista empresarial, STOP proporciona respuestas sencillas y definitivas, lo que lo hace más fiable que los métodos "probabilísticos" inciertos. Además, en la gran mayoría de los casos es más sencillo de aplicar y más fácil de adaptar a la realidad cambiante que otros métodos. Las decisiones Sí/No son más convincentes para los mandos intermedios y superiores. Los "informes STOP" en la mayoría de los casos son más cortos y fáciles de leer que los basados en datos. Además, la adopción de este método permite a la empresa reducir costes en científicos de datos y licencias SAS. Yo diría que el único problema con STOP es que es más difícil hacer una presentación de PowerPoint presentando los resultados de STOP, pero este es un campo en desarrollo dinámico, por lo que en el futuro se pueden proponer mejores métodos de visualización.

7 votos

Una vez que se han presentado las diapositivas de PowerPoint con la conclusión, es demasiado tarde para cambiarla, así que hay dos opciones: hacer que el análisis se ajuste a la conclusión o no molestarse en hacer análisis.

13 votos

@MarkL.Stone ¡Claro! A mí personalmente me gusta la idea de hacer gráficos para la presentación antes de ver los datos, la idea tiene sus raíces en el pensamiento bayesiano y yo los llamo gráficos a priori :) Creo que este enfoque apareció impreso por primera vez aquí: dilbert.com/strip/2008-05-08

17voto

Este bonito complemento al debate sobre el valor p, interesante pero también algo rancio en mi opinión, me recuerda un singular artículo publicado hace algunos años en el número de Navidad de la revista Revista Médica Británica (BMJ), que cada Navidad publica artículos de investigación reales pero divertidos. En particular, este trabajo de Isaacs y Fitzgerald destacó siete alternativas clave a la medicina basada en pruebas (es decir, la práctica de la medicina basada en pruebas clínicas y estadísticas reales):

  • Medicina basada en la eminencia
  • Medicina basada en la vehemencia
  • Medicina basada en la elocuencia
  • Medicina basada en la Providencia
  • Medicina basada en la confianza
  • Medicina basada en el nerviosismo
  • Medicina basada en la confianza

Lo más interesante es fijarse en las columnas que destacan los aparatos de medición y las unidades de medida de los puntos anteriores (por ejemplo, audiómetro y decibelios para la medicina basada en la vehemencia).

5 votos

+1. Gracias por una contribución espléndida, perfectamente acorde con el espíritu de la pregunta. (1) Sólo para aclarar: ¿es el debate sobre el valor p lo que te parece "rancio" o sólo esta pregunta? (2) ¿Sabrías dónde encontrar la referencia (6), "J Salarios exponenciales"? Seguro que tendría muchos lectores ávidos si fuera más conocida.

6 votos

(1) Su contribución es "fresca certificada" (por citar rottentomatoes.com). Por el contrario, encuentro un tanto rancio este énfasis en las limitaciones de los valores p. En la era del aprendizaje automático, los macrodatos y la escasa cultura científica del público, la postura de la ASA puede parecer un poco masoquista. (2) Creo que encontrarás ese artículo en la misma revista donde publicaron el ensayo aleatorio recomendado en este otro artículo navideño del BMJ: bmj.com/content/327/7429/1459 .

2 votos

Siempre se me olvida, ¿es la Medicina Basada en la Confianza la que utiliza la inferencia basada en Dunning-Kruger?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X