Psicológicamente significativa modelo nos puede guiar.
La derivación de una prueba útil
Cualquier variación en las observaciones pueden ser atribuidas a las variaciones entre los sujetos. Podemos imaginar que cada sujeto, en algún nivel, viene con un valor numérico para el resultado del método 1 y un valor numérico para el resultado del método 2. Luego comparan estos resultados. Si los dos son lo suficientemente diferentes, el sujeto hace una verdadera elección, pero de lo contrario el sujeto declara un empate. (Esto se relaciona con los vínculos con la existencia de un umbral de discriminación.)
La variación entre el sujeto produce una variación en las observaciones experimentales. Habrá una determinada probabilidad de $\pi_1$ de favorecer el método 1, una determinada probabilidad de $\pi_2$ de favorecer el método 2, y una determinada probabilidad de $\pi_0$ de un empate.
Es justo asumir que el sujeto responda de forma independiente el uno del otro. En consecuencia, la probabilidad de que la observación de $n_1$ de los sujetos, favoreciendo el método 1, $n_2$ de los sujetos, favoreciendo el método 2, y $n_0$ temas dando lazos, es multinomial. Aparte de un (irrelevante) de la normalización de la constante, el logaritmo de la probabilidad es igual a
$$n_1 \log(\pi_1) + n_2 \log(\pi_2) + n_0 \log(\pi_0).$$
Dado que el $\pi_0 + \pi_1 + \pi_2=0$, esto se maximiza cuando se $\pi_i = n_i/n$ donde $n = n_0+n_1+n_2$ es el número de sujetos.
Para probar la hipótesis nula de que los dos métodos son considerados igual de bueno, maximizar la probabilidad sujeto a la restricción implícita por esta hipótesis. Teniendo en cuenta el modelo psicológico y su invocación de un hipotético umbral, tendremos que vivir con la posibilidad de que $\pi_0$ (la probabilidad de lazos) es distinto de cero. La única manera de detectar una tendencia a favor de un modelo sobre el otro radica en cómo $\pi_1$ $\pi_2$ afectados: si el modelo 1 es favorecido, a continuación, $\pi_1$ debe aumentar y $\pi_2$ disminuir, y viceversa. Suponiendo que la variación es simétrica, la no-preferencia situación se produce cuando $\pi_1=\pi_2$. (El tamaño de $\pi_0$ nos dirá algo sobre el umbral-acerca de la capacidad discriminatoria -, pero de lo contrario, no da ninguna información acerca de las preferencias).
Cuando no hay ningún modelo favorecido, el de máxima verosimilitud se produce cuando $\pi_1=\pi_2 = \frac{n_1+n_2}{2}/n$ y, una vez más, $\pi_0 = n_0/n$. Conectar las dos soluciones anteriores, se calcula el cambio en el máximo de probabilidades, $G$:
$$\eqalign{
G &=\left(n_1\log\frac{n_1}{n} + n_2\log\frac{n_2}{n} + n_0\log\frac{n_0}{n}\right) \\
&-\left(n_1\log\frac{(n_1+n_2)/2}{n} + n_2\log\frac{(n_1+n_2)/2}{n} + n_0\log\frac{n_0}{n}\right) \\
&=n_1 \log\frac{2n_1}{n_1+n_2} + n_2 \log\frac{2n_2}{n_1+n_2}.
}$$
El tamaño de este valor, que no puede ser negativo--nos dice cómo creíble la hipótesis nula es: al $G$ es pequeña, los datos son ", explicó el" casi tan bien con el (restrictiva) la hipótesis nula como lo son en general; cuando el valor es grande, la hipótesis nula es menos creíble.
El (asintótica) estimación de máxima verosimilitud, la teoría dice que un umbral razonable para este cambio es la mitad de la $1-\alpha$ cuantil de una distribución de la chi cuadrado con un grado de libertad (debido a la sola restricción $\pi_1=\pi_2$ impuesto por la hipótesis nula). Como de costumbre, $\alpha$ es el tamaño de esta prueba, se toma a menudo para ser el 5% ($0.05$) o 1% ($0.01$). La correspondiente cuantiles se $3.841459$$6.634897$.
Ejemplo
Supongamos que de $n=20$ de los sujetos, $n_1=3$ es partidario de que el método 1 y $n_2=9$ a favor del método 2. Eso implica que hay $n_0 = 20 - 3 - 9 = 8$ lazos. La probabilidad es maximizada, entonces, para$\pi_1 = 3/20 = 0.15$$\pi_2 = 9/20 = 0.45$, donde se tiene un valor de $-20.208\ldots$. Bajo la hipótesis nula es la probabilidad de vez maximizada para $\pi_1 = \pi_2 = 6/20 = 0.30$, donde su valor es sólo $-21.778$. La diferencia de $G = -20.208 - (-21.778) = 1.57$ es menos de la mitad el $\alpha = $5% umbral de $3.84$. Por lo tanto, ¿ no rechazar la hipótesis nula.
Acerca de los vínculos y las pruebas alternativas
Mirando hacia atrás en la fórmula para $G$, observe que el número de vínculos ($n_0$) no aparece. En el ejemplo, si se había observado $n=100$ temas y, entre ellos, $3$ favoreció el método 1, $9$ favoreció el método 2, y el resto de $100 - 3 - 9 = 88$ fueron atados, el resultado sería el mismo.
La división de los lazos y la asignación de la mitad que en el método 1 y la mitad para el método 2 es intuitivamente razonable, pero los resultados en menos potentes de la prueba. Por ejemplo, supongamos $n_1=5$$n_2=15$. Considerar dos casos:
$n=20$ de los sujetos, por lo que no se $n_0=0$ lazos. La máxima probabilidad de la prueba podría rechazar la nula para cualquier valor de $\alpha$ mayor que $0.02217$. Otra prueba utilizada frecuentemente en esta situación (porque no hay lazos) es una prueba binomial; sería rechazar la nula para cualquier valor de $\alpha$ mayor que $0.02660$. Las dos pruebas, por lo tanto, suelen dar los mismos resultados, debido a que estos valores críticos están bastante cerca.
$n=100$ de los sujetos, por lo que no se $n_0=80$ lazos. La máxima probabilidad de la prueba todavía rechazar la nula para cualquier valor de $\alpha$ mayor que $0.02217$. La prueba binomial podría rechazar la nula sólo para cualquier valor de $\alpha$ mayor que $0.3197$. Las dos pruebas completamente diferentes resultados. En particular, el $80$ lazos se han debilitado la capacidad de la prueba binomial para distinguir la diferencia que el de máxima verosimilitud de la teoría sugiere que es real.
Por último, vamos a considerar el $3 \times 1$ tabla de contingencia de enfoque sugerido en otra respuesta. Considere la posibilidad de $n=20$ de sujetos con $n_1=3$ a favor del método 1, $n_2=10$ a favor método 2, y $n_0=7$ con lazos. La "mesa" es el vector $(n_0,n_1,n_2)=(7,3,10)$. Su chi-cuadrado estadístico es $3.7$ con dos grados de libertad. El p-valor es $0.1572$, lo que provocaría que la mayoría de la gente a la conclusión de que no hay diferencia entre los métodos. El de máxima verosimilitud, como resultado, en lugar da un valor de p $0.04614$, lo que supondría rechazar esta conclusión en el $\alpha=$5% nivel.
Con $n=100$ de sujetos supongamos que sólo $1$ favoreció el método 1, sólo $2$ favoreció el método 2, y no se $97$ lazos. Intuitivamente, hay muy poca evidencia de que uno de estos métodos tiende a ser la favorita. Pero esta vez el test de la chi-cuadrado de estadística de $182.42$ claramente, incontrovertiblemente, (pero muy equivocadamente) muestra que hay una diferencia (el valor de p es menor que $10^{-15}$).
En ambas situaciones el test de la chi-cuadrado de enfoque obtiene la respuesta totalmente equivocado: en el primer caso, se carece de poder para detectar una diferencia sustancial, mientras que en el segundo caso (con un montón de lazos) es extremadamente confiados acerca de una insignificante diferencia. El problema no es que la prueba de chi-cuadrado es malo; el problema es que las pruebas de una hipótesis distinta: a saber, si $\pi_1=\pi_2=\pi_0$. De acuerdo a nuestro modelo conceptual, esta hipótesis es psicológico tontería, porque confunde la información acerca de las preferencias (es decir, $\pi_1$$\pi_2$) con información acerca de los umbrales de discriminación (es decir, $\pi_0$). Esta es una buena demostración de la necesidad de utilizar el contexto de la investigación y el conocimiento de la materia (sin embargo simplificado) en la selección de una prueba estadística.