8 votos

$\chi^2$ ensayo sobre las preferencias del usuario

He generado un usuario de prueba para comparar dos métodos: M1 y M2. Puedo generar 40 casos de prueba y mostrar el resultado de cada método de prueba para 20 personas, de lado a lado, los individuos no sé qué resultado se evidenció a partir de la cual método. Para cada caso de prueba cada persona tiene que decir si el resultado calculado por M1 es mejor o M2 es mejor o que son igual de buenas.

Quiero saber si M1 es mejor que el M2. Yo se suman todos los resultados y generar en 3-D histograma, los votos para M1, votos para el partido, y los votos por M2.

Si yo sólo veía en M1 y M2, como 2-D histograma. Sé que si M1 y M2 fueron igual de bueno este histograma sería uniforme. A continuación voy a realizar $\chi^2$ ensayo.

Lo que no sé cómo modelo son los votos para el partido. Aquí hay dos opciones que he pensado:

  • La base de la prueba de chi-cuadrado es que los histogramas son mutuamente exclusivo y uno. Parece que los votos para el empate puede ser dividido en dos y se añade a cada uno de los M1 y M2 (y los lazos que se retira), pero esta no parece muy de principios.
  • Otra opción es que yo apenas podía ignorar los lazos, que parece imperfecto porque se rompe el "uno" de la propiedad. Por ejemplo, si Yo tenía (M1:2, lazos:98 M2:0) la diferencia entre ambos métodos de no ser estadísticamente significativo.

¿Qué más puedo hacer? Estoy mirando este incorrectamente? Esto parece ser un problema común de la gente estaría de cara al modelado de usuario de votos. ¿Cuál es la forma correcta de modelar los lazos?

6voto

jldugger Puntos 7490

Psicológicamente significativa modelo nos puede guiar.

La derivación de una prueba útil

Cualquier variación en las observaciones pueden ser atribuidas a las variaciones entre los sujetos. Podemos imaginar que cada sujeto, en algún nivel, viene con un valor numérico para el resultado del método 1 y un valor numérico para el resultado del método 2. Luego comparan estos resultados. Si los dos son lo suficientemente diferentes, el sujeto hace una verdadera elección, pero de lo contrario el sujeto declara un empate. (Esto se relaciona con los vínculos con la existencia de un umbral de discriminación.)

La variación entre el sujeto produce una variación en las observaciones experimentales. Habrá una determinada probabilidad de $\pi_1$ de favorecer el método 1, una determinada probabilidad de $\pi_2$ de favorecer el método 2, y una determinada probabilidad de $\pi_0$ de un empate.

Es justo asumir que el sujeto responda de forma independiente el uno del otro. En consecuencia, la probabilidad de que la observación de $n_1$ de los sujetos, favoreciendo el método 1, $n_2$ de los sujetos, favoreciendo el método 2, y $n_0$ temas dando lazos, es multinomial. Aparte de un (irrelevante) de la normalización de la constante, el logaritmo de la probabilidad es igual a

$$n_1 \log(\pi_1) + n_2 \log(\pi_2) + n_0 \log(\pi_0).$$

Dado que el $\pi_0 + \pi_1 + \pi_2=0$, esto se maximiza cuando se $\pi_i = n_i/n$ donde $n = n_0+n_1+n_2$ es el número de sujetos.

Para probar la hipótesis nula de que los dos métodos son considerados igual de bueno, maximizar la probabilidad sujeto a la restricción implícita por esta hipótesis. Teniendo en cuenta el modelo psicológico y su invocación de un hipotético umbral, tendremos que vivir con la posibilidad de que $\pi_0$ (la probabilidad de lazos) es distinto de cero. La única manera de detectar una tendencia a favor de un modelo sobre el otro radica en cómo $\pi_1$ $\pi_2$ afectados: si el modelo 1 es favorecido, a continuación, $\pi_1$ debe aumentar y $\pi_2$ disminuir, y viceversa. Suponiendo que la variación es simétrica, la no-preferencia situación se produce cuando $\pi_1=\pi_2$. (El tamaño de $\pi_0$ nos dirá algo sobre el umbral-acerca de la capacidad discriminatoria -, pero de lo contrario, no da ninguna información acerca de las preferencias).

Cuando no hay ningún modelo favorecido, el de máxima verosimilitud se produce cuando $\pi_1=\pi_2 = \frac{n_1+n_2}{2}/n$ y, una vez más, $\pi_0 = n_0/n$. Conectar las dos soluciones anteriores, se calcula el cambio en el máximo de probabilidades, $G$:

$$\eqalign{ G &=\left(n_1\log\frac{n_1}{n} + n_2\log\frac{n_2}{n} + n_0\log\frac{n_0}{n}\right) \\ &-\left(n_1\log\frac{(n_1+n_2)/2}{n} + n_2\log\frac{(n_1+n_2)/2}{n} + n_0\log\frac{n_0}{n}\right) \\ &=n_1 \log\frac{2n_1}{n_1+n_2} + n_2 \log\frac{2n_2}{n_1+n_2}. }$$

El tamaño de este valor, que no puede ser negativo--nos dice cómo creíble la hipótesis nula es: al $G$ es pequeña, los datos son ", explicó el" casi tan bien con el (restrictiva) la hipótesis nula como lo son en general; cuando el valor es grande, la hipótesis nula es menos creíble.

El (asintótica) estimación de máxima verosimilitud, la teoría dice que un umbral razonable para este cambio es la mitad de la $1-\alpha$ cuantil de una distribución de la chi cuadrado con un grado de libertad (debido a la sola restricción $\pi_1=\pi_2$ impuesto por la hipótesis nula). Como de costumbre, $\alpha$ es el tamaño de esta prueba, se toma a menudo para ser el 5% ($0.05$) o 1% ($0.01$). La correspondiente cuantiles se $3.841459$$6.634897$.


Ejemplo

Supongamos que de $n=20$ de los sujetos, $n_1=3$ es partidario de que el método 1 y $n_2=9$ a favor del método 2. Eso implica que hay $n_0 = 20 - 3 - 9 = 8$ lazos. La probabilidad es maximizada, entonces, para$\pi_1 = 3/20 = 0.15$$\pi_2 = 9/20 = 0.45$, donde se tiene un valor de $-20.208\ldots$. Bajo la hipótesis nula es la probabilidad de vez maximizada para $\pi_1 = \pi_2 = 6/20 = 0.30$, donde su valor es sólo $-21.778$. La diferencia de $G = -20.208 - (-21.778) = 1.57$ es menos de la mitad el $\alpha = $5% umbral de $3.84$. Por lo tanto, ¿ no rechazar la hipótesis nula.


Acerca de los vínculos y las pruebas alternativas

Mirando hacia atrás en la fórmula para $G$, observe que el número de vínculos ($n_0$) no aparece. En el ejemplo, si se había observado $n=100$ temas y, entre ellos, $3$ favoreció el método 1, $9$ favoreció el método 2, y el resto de $100 - 3 - 9 = 88$ fueron atados, el resultado sería el mismo.

La división de los lazos y la asignación de la mitad que en el método 1 y la mitad para el método 2 es intuitivamente razonable, pero los resultados en menos potentes de la prueba. Por ejemplo, supongamos $n_1=5$$n_2=15$. Considerar dos casos:

  1. $n=20$ de los sujetos, por lo que no se $n_0=0$ lazos. La máxima probabilidad de la prueba podría rechazar la nula para cualquier valor de $\alpha$ mayor que $0.02217$. Otra prueba utilizada frecuentemente en esta situación (porque no hay lazos) es una prueba binomial; sería rechazar la nula para cualquier valor de $\alpha$ mayor que $0.02660$. Las dos pruebas, por lo tanto, suelen dar los mismos resultados, debido a que estos valores críticos están bastante cerca.

  2. $n=100$ de los sujetos, por lo que no se $n_0=80$ lazos. La máxima probabilidad de la prueba todavía rechazar la nula para cualquier valor de $\alpha$ mayor que $0.02217$. La prueba binomial podría rechazar la nula sólo para cualquier valor de $\alpha$ mayor que $0.3197$. Las dos pruebas completamente diferentes resultados. En particular, el $80$ lazos se han debilitado la capacidad de la prueba binomial para distinguir la diferencia que el de máxima verosimilitud de la teoría sugiere que es real.

Por último, vamos a considerar el $3 \times 1$ tabla de contingencia de enfoque sugerido en otra respuesta. Considere la posibilidad de $n=20$ de sujetos con $n_1=3$ a favor del método 1, $n_2=10$ a favor método 2, y $n_0=7$ con lazos. La "mesa" es el vector $(n_0,n_1,n_2)=(7,3,10)$. Su chi-cuadrado estadístico es $3.7$ con dos grados de libertad. El p-valor es $0.1572$, lo que provocaría que la mayoría de la gente a la conclusión de que no hay diferencia entre los métodos. El de máxima verosimilitud, como resultado, en lugar da un valor de p $0.04614$, lo que supondría rechazar esta conclusión en el $\alpha=$5% nivel.

Con $n=100$ de sujetos supongamos que sólo $1$ favoreció el método 1, sólo $2$ favoreció el método 2, y no se $97$ lazos. Intuitivamente, hay muy poca evidencia de que uno de estos métodos tiende a ser la favorita. Pero esta vez el test de la chi-cuadrado de estadística de $182.42$ claramente, incontrovertiblemente, (pero muy equivocadamente) muestra que hay una diferencia (el valor de p es menor que $10^{-15}$).

En ambas situaciones el test de la chi-cuadrado de enfoque obtiene la respuesta totalmente equivocado: en el primer caso, se carece de poder para detectar una diferencia sustancial, mientras que en el segundo caso (con un montón de lazos) es extremadamente confiados acerca de una insignificante diferencia. El problema no es que la prueba de chi-cuadrado es malo; el problema es que las pruebas de una hipótesis distinta: a saber, si $\pi_1=\pi_2=\pi_0$. De acuerdo a nuestro modelo conceptual, esta hipótesis es psicológico tontería, porque confunde la información acerca de las preferencias (es decir, $\pi_1$$\pi_2$) con información acerca de los umbrales de discriminación (es decir, $\pi_0$). Esta es una buena demostración de la necesidad de utilizar el contexto de la investigación y el conocimiento de la materia (sin embargo simplificado) en la selección de una prueba estadística.

1voto

BBlake Puntos 310

Sospecho whuber la respuesta es (como de costumbre) más repleta que lo que estoy a punto de escribir. Lo admito, no puedo entender completamente whuber la respuesta... así que lo que estoy diciendo no puede ser único o útil. Sin embargo, no me di cuenta donde en whuber la respuesta de la anidación de las preferencias concedidas en virtud de los individuos, así como la jerarquización de preferencias dentro de la prueba-de los casos se consideró. Creo que dada la pregunta que pide la aclaración de que:

Los casos son de hecho una muestra aleatoria de todos los casos posibles. Creo que un la analogía es la siguiente: la elección está determinada por lo que sucede en las urnas, pero tengo para cada uno de los votantes de su afiliación a un partido. Así sería casi espera que un candidato de un partido de apelaciones para los electores afiliados a ese partido, pero esto no es necesariamente una dado, un gran candidato puede ganar en su partido y ganar a la gente a formar a la otra parte.

... estas son consideraciones importantes. Por lo tanto, tal vez lo más apropiado es no $\chi^2$ pero un multi-nivel de modelo logístico. Específicamente en R I podría lanzar algo como:

lmer(PreferenceForM1~1+(1|RaterID)+(1|TestCaseID),family=binomial)

PreferenceForM1 sería codificado como 1 (sí) y 0 (no). Aquí un interceptar más de 0 indicaría un promedio del evaluador, la preferencia por el método 1 en un promedio de caso de prueba. Con muestras de cerca de los límites inferiores de la utilidad de estas técnicas, yo probablemente también el uso de pvals.la fnc y la influencia.ME a investigar mis supuestos y los efectos de los valores extremos.

La pregunta básica acerca de los lazos de aquí parece bien contestadas por whuber. Sin embargo, voy a (re-)estado en que parece que los lazos de reducir su capacidad de observar una diferencia estadísticamente significativa entre los métodos. Además, voy a reclamar que la eliminación de ellos puede causar sobre-estimación de la preferencia de los individuos por un método frente a los demás. Por la tarde razón, me gustaría dejar en.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X