Estoy leyendo el libro de John Kruschke "Diapositivas "Análisis bayesiano de datos pero en realidad tengo una pregunta acerca de su interpretación de las pruebas t y/o de todo el marco de las pruebas de significación de hipótesis nulas. Sostiene que los valores p están mal definidos porque dependen de las intenciones del investigador.
En concreto, da un ejemplo (páginas 3-6) de dos laboratorios que recogen conjuntos de datos idénticos comparando dos tratamientos. Un laboratorio se compromete a recopilar datos de 12 sujetos (6 por condición), mientras que el otro recopila datos durante una duración fija, que también resulta ser de 12 sujetos. Según las diapositivas, la crítica $t$ -valor para $p<0.05$ difiere entre estos dos sistemas de recogida de datos: $t_{\textrm{crit}}=2.33$ para los primeros, pero $t_{\textrm{crit}}=2.45$ ¡para este último!
En una entrada de blog -que ahora no puedo encontrar- se sugería que el escenario de duración fija tiene más grados de libertad, ya que podrían haber recogido datos de 11, 13 o cualquier otro número de sujetos, mientras que el escenario de N fija, por definición, tiene $N=12$ .
¿Podría alguien explicármelo?
-
¿Por qué el valor crítico diferiría entre estas condiciones?
-
(Suponiendo que se trate de un problema) ¿Cómo se corregirían/compararían los efectos de los distintos criterios de detención?
Sé que establecer los criterios de parada en función de la significación (por ejemplo, muestra hasta $p<0.05$ ) puede inflar las posibilidades de un error de tipo I, pero no parece que eso esté ocurriendo aquí, ya que ninguna de las reglas de parada depende del resultado del análisis.