35 votos

¿Por qué usamos pruebas de hipótesis en lugar de simplemente permitir que las personas hagan actualizaciones bayesianas?

¿Por qué necesitamos discretizar nuestros juicios utilizando pruebas de hipótesis?

¿Por qué no podemos simplemente pedir a las personas que reporten los datos cada vez que se realiza un estudio, y los valores de p y el tamaño del efecto, y luego informar cómo los datos modificaron sus probabilidades subjetivas?

Es más valioso para las personas tener sus propias probabilidades de que ciertas afirmaciones sean verdaderas, y luego actualizar esa probabilidad cuando encuentran nuevos datos en un estudio.

Hacer que las personas solo hagan esto cuando los datos son "estadísticamente significativos" es algo arbitrario. Los datos que no son estadísticamente significativos pero que aún apuntan en una cierta dirección siguen siendo evidencia que debería actualizar sus creencias; simplemente no es lo suficientemente fuerte como para que pueda considerar razonablemente que la conclusión del estudio sea verdadera (sin esperar estar equivocado muchas veces).

Algunas personas dicen que es perjudicial, porque causa que las personas no publiquen estudios que no son estadísticamente significativos.

Todos tienen sus propias probabilidades asignadas a afirmaciones, y luego, cuando se encuentran con un nuevo conjunto de datos, actualizan sus probabilidades. Tal vez los datos no sean estadísticamente significativos, y no actualicen mucho, pero eso es mejor que nada. Especialmente si esto llevaría a normas más saludables en la ciencia, donde todos los estudios se publican.

1voto

Digital Fruit Puntos 41

Estoy de acuerdo con algunas respuestas en que esto podría ser una limitación del conjunto de herramientas (la mente humana), pero, creo, quizás no tan simple como algunas personas siendo demasiado tontas para entender la inferencia bayesiana.

Las hipótesis causales en sí mismas son atractivas para la mente humana para razonar. Tome contextos competitivos con muchas fuentes de datos (y de hipótesis), como artículos científicos. Cualquier parte de la nueva información (de segunda mano) es probable que esté sesgada de alguna manera y en algún grado que solo se revelaría mucho más tarde. Si y cuando eso sucede, uno también podría desear "desaprender" lo aprendido de una fuente aparentemente defectuosa.

Un modelo computerizado quizás pueda "olvidar" una actualización bayesiana (incluso si no está organizado como un modelo bayesiano en sí mismo, puede hacerlo volviendo a reproducir lo que ya aprendió menos la actualización a olvidar), pero la mente humana no puede hacer eso.

Al tener hipótesis explícitamente articuladas se obtienen dos beneficios:

  1. Las hipótesis explícitas permiten intentos de replicación. Eso permite la detección de datos incorrectos.
  2. Los "principios causales" aislados detrás de cada conjunto de datos facilitan la detección de los tipos de discurso causal que estaban fuertemente condicionados por el particular dato defectuoso. Esto ayuda a reducir el retroceso cognitivo sufrido por los datos previamente creídos.

No dudo que el análisis bayesiano pueda ser la herramienta perfecta para datos perfectos, o para datos uniformemente imperfectos. Pero: Si algunos de sus datos de entrada fueron proporcionados en realidad por sus adversarios, o si una proporción muy grande de los datos resulta ser ruido, Y usted es humano, entonces una metodología más estructurada podría concebiblemente terminar siendo más exitosa o al menos más popular a largo plazo.

0voto

ManuV Puntos 389

Bienvenido a CV. Tu pregunta es interesante. Mi respuesta aborda las dos preguntas específicas en el cuerpo de tu pregunta:

"Me pregunto por qué necesitamos "discretizar" nuestros juicios utilizando pruebas de hipótesis. ¿Por qué no podemos simplemente, cada vez que se realiza un estudio, hacer que las personas reporten los datos, los valores de p y el tamaño del efecto, y luego informar cómo los datos alteraron sus probabilidades subjetivas?"

Respecto a tu primera pregunta, es muy común en aplicaciones utilizar pruebas de hipótesis de forma inferencial. Por ejemplo, quizás informando la significancia estadística al nivel del 5% y al mismo tiempo suministrando el valor de p. Puede que no haya decisiones formales como tal. Facilitar el valor de p permite a los lectores hacer sus propios juicios sobre la evidencia.

Tu segunda pregunta propone un procedimiento mixto que informa cálculos frecuentistas (valores de p, tamaños de efecto estimados) junto con la exigencia de que los investigadores produzcan y reporten probabilidades a posteriori bayesianas de las hipótesis.

Como antecedente, en mi opinión, los frecuentistas están interesados en modelar el proceso de generación de datos en sí mismo, pero generalmente no están interesados en modelar su propia incertidumbre sobre ese proceso. Esa es la clave de la división entre frecuentistas y bayesianos (y también por qué muchos científicos instintivamente no son bayesianos).

Implementar tu propuesta plantearía algunos problemas prácticos serios:

  1. ¿Cómo obligar a científicos y estadísticos reacios a modelar su incertidumbre utilizando probabilidades a priori cuando esa no es la forma en que se presenta su incertidumbre?
  2. ¿Cómo hacer que la comunidad científica o incluso la comunidad en general valore las probabilidades a posteriori bayesianas? (¿Cómo debería Julie ver la probabilidad a posteriori de Bob?)
  3. La mayoría de los estudios tienen varios autores, así que supongo que necesitaría haber una reunión de probabilidades a priori antes de la recolección de datos en la que todos deberían informar sus prioris, ¿o tal vez podrían intentar llegar a un compromiso previo? ¿Qué pasa si no pueden llegar a un compromiso? Presumiblemente, las prioris y posteriors de cada autor deberían ser publicadas. Además, ¿deberían también proporcionar software de cálculo con el informe final para que los lectores futuros del informe puedan ingresar sus propias priors?

En resumen, esto no suena como un enfoque positivo para la ciencia. Sin embargo, mis comentarios no están destinados a ser críticas (aunque es probable que no sean populares). Bien hecho por hacer una pregunta tan estimulante.

0voto

SadPC Puntos 11

Me gustaría agregar dos razones. Una es que para la primera estimación de un efecto, el valor p es útil para decidir qué hacer a continuación. ¿Debería molestar en recopilar más datos o realizar otro estudio? Después de todo, los presupuestos son finitos.

Pero parece que estás limitando tu pregunta a situaciones en las que existen estimaciones previas de estudios anteriores para comparar con el hallazgo actual. Con respecto a ese contexto, hay otra razón,

Según entiendo, la idea de la prueba de significancia de la hipótesis nula surgió en una época de muestras únicas y pequeñas. Necesitabas algo que te dijera qué sucedería si recopilaras más datos o sacaras más muestras, porque no podías (o era la norma no hacerlo). Por ejemplo, en mi campo, estudios clásicos reportan resultados de ANOVAs con 10 observaciones por celda. Los valores p realmente importaban para esos contextos, pero no me preguntes por qué no simplemente obtenían muestras más grandes o replicaban su hallazgo como hacemos ahora; no conozco la historia de eso.

Una limitación irónica del valor p es que tiende a hacerse más pequeño a medida que el tamaño de la muestra aumenta, lo que significa que con una muestra lo suficientemente grande, casi siempre (¿definitivamente siempre?) terminas con "significancia estadística". En mi campo, especialmente me resulta frustrante que las revistas estén exigiendo tamaños de muestra más grandes y más replicaciones dentro de un estudio, pero aún así no publicarán tu trabajo sin valores p para cada estimación. ¿No entienden cómo funcionan los valores p? Probablemente. O es solo inercia, realmente no lo sé. Si un artículo informa 3 estudios con muestras grandes, junto con 3 replicaciones exitosas (en el sentido de predicciones sobre las estimaciones que no se falsificaron), pero los tamaños de efecto eran todos trivialmente mayores que cero, los valores p seguirían siendo significativos si las muestras fueran lo suficientemente grandes. Si los tamaños de efecto fueran razonablemente grandes, entonces francamente los valores p solo estorban; seguirán siendo significativos, lo que los hace redundantes con los tamaños de efecto. En estudios como estos, en el mejor de los casos no agregan nada, y en el peor permiten a los investigadores decir "estadísticamente significativo" para efectos que claramente no son significativos en ningún otro sentido significativo.

Demasiado largo/no lo leí: ¿Por qué no confiamos en los autores para hacer la actualización bayesiana ellos mismos? 1) es útil para decidir cuál de dos estudios novedosos seguir. 2) solía ser útil para investigaciones limitadas a muestras únicas y pequeñas (y aún lo es, por ejemplo, para pruebas en animales donde la prioridad es limitar el número de animales que deben sacrificarse), y 3) excluyendo 1 y 2: ¡no lo sé!

P.D. Como respondió un comentario, no todos son expertos y, por lo tanto, es posible que no tengan una priori en su cabeza que les ayude a poner el hallazgo actual en contexto. Para la investigación académica, podría sugerir que esto se podría superar fácilmente, por ejemplo, si las revistas exigieran a los autores reportar las estimaciones de la literatura previa, tal vez en una tabla, para dar al lector ese contexto. Personalmente, consideraría esto como una mejora sobre la práctica actual de citar el trabajo previo verbalmente pero luego, en términos de las estimaciones en sí, engañar funcionalmente al lector haciéndole creer que el estudio actual es la primera prueba de una hipótesis dada al obligarlos a usar el valor p para decidir si creer o no que un efecto es significativo. Personalmente, preferiría ver las 5 estimaciones anteriores antes que el valor p de la estimación actual. ¡Pero eso solo soy yo!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X