21 votos

En la prueba exacta de Fisher: ¿Qué prueba habría sido apropiada si la señora no hubiera conocido el número de vasos de leche?

En el famoso señora degustación de té experimento de RA Fisher, se informa a la señora de cuántas tazas de leche-primero/té-primero hay (4 para cada una de las 8 tazas). Esto respeta el supuesto de total marginal fijo de la prueba exacta de Fisher.

Me imaginaba haciendo esta prueba con mi amigo, pero la idea me asaltó. Si la señora realmente puede distinguir entre las tazas de leche y las de té, debería ser capaz de calcular los totales marginales de las tazas de leche y las de té, así como cuáles son cuáles.

He aquí la cuestión: ¿Qué prueba se podría haber utilizado si RA Fisher no hubiera informado a la señora del número total de tazas de leche y té?

18voto

jasonmray Puntos 1303

Algunos argumentarían que incluso si el segundo margen no está fijado por diseño, aporta poca información sobre la capacidad de discriminación de la dama (es decir, es aproximadamente accesorio) y debería condicionarse. La prueba incondicional exacta (propuesta por primera vez por Barnard ) es más complicado porque hay que calcular el valor p máximo para todos los valores posibles de un parámetro perturbador, es decir, la probabilidad común de Bernoulli bajo la hipótesis nula. Más recientemente, se ha propuesto maximizar el valor p sobre un intervalo de confianza para el parámetro de molestia: véase Berger (1996), "More Powerful Tests from Confidence Interval p Values", El Estadístico Americano , 50 , 4; se pueden construir pruebas exactas que tengan el tamaño correcto utilizando esta idea.

La prueba exacta de Fisher también se plantea como una prueba de aleatorización, en el sentido de Edgington: una asignación aleatoria de los tratamientos experimentales permite utilizar la distribución del estadístico de prueba sobre permutaciones de estas asignaciones para probar la hipótesis nula. En este enfoque, las determinaciones de la dama se consideran fijas (& los totales marginales de las tazas de leche-primero y té-primero se conservan, por supuesto, mediante permutación).

6voto

Greg Puntos 295

Hoy he leído los primeros capítulos de "El diseño de experimentos", de RA Fisher, y uno de los párrafos me ha hecho darme cuenta del fallo fundamental de mi pregunta.

Eso es, incluso si la señora puede realmente distinguir entre tazas de leche y de té Puedo nunca demostrar que tiene esa capacidad "por cualquier cantidad finita de experimentación". Por esta razón, como experimentador, debería empezar con la suposición de que ella no tiene una habilidad (hipótesis nula) y tratar de refutar eso. Y el diseño original del experimento (test exacto de Fisher) es un procedimiento suficiente, eficiente y justificable para hacerlo.

He aquí el extracto de "El diseño de experimentos" de RA Fisher:

Se podría argumentar que si un ex que el sujeto no posee discriminación sensorial entre dos dos clases diferentes de objetos, debe ser capaz de probar la hipótesis opuesta. la hipótesis contraria, es decir, que puede efectuar tal discriminación. Pero esta última hipótesis, sin embargo es inelegible como hipótesis nula para ser probada por experimento, porque es inexacta. inexacta. Si se afirmara que el sujeto nunca se equivoca en sus juicios, tendríamos de nuevo una hipótesis exacta, y es fácil ver que esta hipótesis podría ser refutada por un solo fallo, pero nunca podría ser demostrado por cualquier finito experimentación .

4voto

user164061 Puntos 281

La prueba de Barnard se utiliza cuando el parámetro perturbador es desconocido bajo la hipótesis nula.

Sin embargo, en la prueba de degustación de la señora se podría argumentar que el parámetro de molestia se puede fijar en 0,5 bajo la hipótesis nula (la señora desinformada tiene un 50% de probabilidades de acertar una copa).

Entonces, el número de aciertos, bajo la hipótesis nula, se convierte en una distribución binomial: acertar 8 tazas con un 50% de probabilidad para cada taza.


En otras ocasiones puede que no tenga este trivial 50% de probabilidad para la hipótesis nula. Y sin márgenes fijos puede que no sepa cuál debe ser esa probabilidad. En ese caso necesita la prueba de Barnard.


Incluso si hiciera la prueba de Barnard en la prueba de la señora que prueba el té, se convertiría en el 50% de todos modos (si el resultado es todas las conjeturas correctas) ya que el parámetro de molestia con el valor p más alto es 0,5 y daría lugar a la prueba binomial trivial (en realidad es la combinación de dos pruebas binomiales una para las cuatro primeras tazas de leche y otra para las cuatro primeras tazas de té).

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

A continuación se muestra cómo sería para un resultado más complicado (si no todas las suposiciones son correctas, por ejemplo, 2 frente a 4), entonces el recuento de lo que es y lo que no es extremo se vuelve un poco más difícil

(Obsérvese también que la prueba de Barnard utiliza, en el caso de un resultado de 4-2, un parámetro de error p=0,686 que podría argumentarse que no es correcto; el valor p para una probabilidad del 50% de responder "primero el té" sería de 0,08203125). Este valor es aún menor si se considera una región diferente, en su lugar la basada en el estadístico de Wald, aunque la definición de la región es no tan fácil )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X