6 votos

¿Distribución Chi-cuadrado para dados no regresa valores esperados?

Estoy tratando de comprobar que mis dados son razonablemente justa y equilibrada. No estoy seguro de que estoy haciendo lo correcto, sin embargo, ya estoy básicamente a enseñar a mí mismo stats sin referencias. Para lograr esto, he asentado en la prueba de chi-cuadrado. Esto es lo que yo estoy haciendo:

Tengo un tamaño de la muestra $N$ de los rollos. En un dC, donde $C$ es el número de lados, la frecuencia esperada para cada rollo de la 1 a la $C$$\frac{N}{C}$. Entonces me calcular el $\chi^{2}$ valor de la distribución de$1$$C$. Entonces, puedo calcular el chi-cuadrado de distribución (en Excel utilizando CHIDIST) con grados de libertad igual a $C-1$.

He aquí un caso de ejemplo:

  • Tomar una d4, y asumir cada cara se puso igualmente de 1500 veces.
  • Calcular el valor de chi-cuadrado para esto, con cada cara y una frecuencia esperada de 1500
  • Calcular el chi-cuadrado de distribución, utilizando chidist y 3 como los grados de libertad

El problema es que esto está volviendo a la falta de sentido de los valores. Por ejemplo, en un d4, si yo de entrada de 6000 distribuidas uniformemente en rollos, chidist devuelve .801252. No importa lo que me hagan $N$, incluso si no hay una distribución uniforme, yo no estoy por debajo de .801252. Sé que estoy haciendo algo mal aquí, pero no estoy seguro de qué es.

El chi-cuadrado de distribución de valor se debe caer dentro de cualquier tipo de significado. Alguna ayuda?


Edit: Por solicitud, voy a postear una captura de pantalla de mi Excel diseño y el listado de las fórmulas utilizadas. He ocultado el irrelevante filas.

enter image description here

Las fórmulas que se usan:

  • C2:C5 = B22/4 (Frecuencia)
  • B22 = SUM(B2:B5) (Suma)
  • (StDev y StdErr no son relevantes)
  • B25 = CHITEST(B2:B5, B91:B94) (Chi cuadrado)
  • B26 = CHIDIST(B25, B1-1) (Chi distribución)

He aquí algunos datos en bruto:

   4  -  6
1| 56    36
2| 45    33
3| 57    33
4| 42    40
5|       29
6|       29

7voto

AdamSane Puntos 1825

Un estadístico de chi-cuadrado se hace más grande el más de lo esperado las entradas. El p-valor más pequeño. Muy pequeños los valores de p se dice que "Si la hipótesis nula de igualdad de probabilidades eran verdaderos, algo realmente raro que acaba de suceder" (el habitual conclusión es, por lo general, que algo menos notable que ocurrió bajo la alternativa de que no son igualmente probables).

La correcta de la chi-cuadrado valor para el recuento de células de la 1500 1500 1500 1500 es 0 y la correcta p-valor es 1:

 chisq.test(c(1500,1500,1500,1500))

    Chi-squared test for given probabilities

data:  c(1500, 1500, 1500, 1500)
X-squared = 0, df = 3, p-value = 1

Su fórmula del chi cuadrado estadística está mal. Una de las imágenes que has publicado habida cuenta de 1500 1500 0 1500. En ese caso, el valor de chi-cuadrado es de 1500, y el p-valor es efectivamente 0:

 chisq.test(c(1500,1500,0,1500))

    Chi-squared test for given probabilities

data:  c(1500, 1500, 0, 1500)
X-squared = 1500, df = 3, p-value < 2.2e-16

Por lo que calculó el chi cuadrado de 1 cuando usted debe tener 0 y calcula 0 cuando usted debe tener 1500.

¿Qué fórmula se utiliza?

(Una comprobación adicional, en estas cuatro más típico de la cuenta

   1    2    3    4 
1481 1542 1450 1527 

usted debe obtener un chi-cuadrado de 3.5693 )

---

En el uso de las pruebas de chi cuadrado para probar dados por la equidad de ver esta pregunta

Me dio una respuesta que señala que - si realmente quieres a prueba de dados usted podría considerar la posibilidad de otras pruebas.

---

Como señaló en su respuesta, el CHITEST función en Excel devuelve el valor de p en lugar de la estadística de prueba (que parece una especie de extraño para mí, dado que se puede conseguir con CHIDIST).

En el caso de que todos los valores esperados son la misma, una forma rápida de obtener el valor de chi-cuadrado en sí es el uso de =SUMXMY2(obs.range,exp.range)/exp.range.1, donde obs.range es el rango de los valores observados y exp.range es el rango de los correspondientes valores esperados, y donde, exp.range.1 es la primera (o cualquier otro) valor en exp.range, dando algo como esto:

    1       2       3       4
Exp 1500    1500    1500    1500
Obs 1481    1542    1450    1527

    chi-sq. p-value     
    3.5693  0.31188     

Un leve torpe pero aun alternativa más fácil es usar CHIINV(p.value,3), para obtener el estadístico de chi-cuadrado, donde p.value es el rango del valor devuelto por CHITEST.

--

Edit: Aquí está un par de puntos para los dos conjuntos de datos publicados.

El sólido líneas grises se espera que el número de veces que cada cara sale en una feria de morir.

El interior par de líneas discontinuas son aproximados límites entre los cuales el individuo se enfrentan resultados debe estar el 95% del tiempo, si los dados fueron justos. (Así que si usted rodó un d20, tendría que esperar el conteo en una cara - en promedio - a estar fuera en el interior de los límites.)

El par exterior de las líneas de puntos son aproximados Bonferroni límites dentro de los cuales los resultados en todos los rostros se encuentran alrededor del 95% del tiempo, si los dados fueron justos. Si a cualquier cuenta que estuviera fuera de aquellos límites, usted tendría alguna razón para sospechar que el morir podría estar sesgado.

plot of d4 results, with boundsplot of d6 results, with bounds


Editar para añadir alguna explicación --

La trama es sólo una parcela de la cuenta. Para un dado con $k$ lados, el recuento del número de veces que una determinada cara viene (un individuo count) es distribuido de forma efectiva como un binomio. Si la hipótesis nula (de una feria de morir) es cierto, es binomial$(N,1/k)$.

El binomio$(N,p)$ es decir $\mu=Np$ y la desviación estándar $\sigma=\sqrt{Np(1-p)}$.

Por lo que el centro de la línea gris es marcada en $\mu=N/k$. Esta cantidad que usted ya sabe cómo hacerlo.

Si $N$ es grande y $p = 1/k$ no está demasiado cerca de 0 o 1, entonces el estandarizados $i^\text{th}$ recuento ($\frac{(X_i-\mu)}{\sigma}$) será bien aproximada por una distribución normal estándar. Alrededor del 95% de una distribución normal, se encuentra dentro de 2 desviaciones estándar de la media. Así que dibujé el interior de las líneas de puntos en $\mu \pm 2\sigma$. La cuenta no son independientes unos de otros (ya que añadir que el número total de rollos deben ser correlacionados negativamente), pero de forma individual tienen aproximadamente los límites a 95% de nivel.

Ver aquí, pero yo solía $z=2$ en lugar de $z=1.96$ - esto es de poca importancia, porque no me importaba si era un 95.4% de intervalo en lugar de un 95%, y es sólo aproximado de todos modos.

Así que le da las líneas punteadas.

En consecuencia, si el sorteo recuento de todos los independientes (que no están del todo, como ya he mencionado), la probabilidad de que todos mienten en algunos obligado es el $k^\text{th}$ de la potencia de la probabilidad de que uno hace. Para una aproximación, para ensayos independientes si desea que la tasa global (a través de todas las caras) de caer fuera de los límites para ser acerca de $5\%$, el individuo probabilidades debe ser de alrededor de $0.05/k$ (hay varias etapas de aproximación aquí, ni siquiera contando la aproximación normal; para trabajar realmente con precisión que usted necesita un montón de caras y pequeñas probabilidades de caer fuera de los límites).

Así que con $k$ caras y un total $5\%$ tasa de estar fuera de los límites, quiero que la probabilidad de que el individuo que se está por encima de cada límite para ser aproximadamente la mitad de esa o $0.025/k$. Con 4 caras que una proporción de $0.025/4 = 0.00625$ por encima del límite superior e $0.00625$ por debajo de la inferior.

Así que dibujé los límites exteriores de los cuatro colindado mueren (d4) en el caso en $\mu \pm c\sigma$ donde $c$ corta $0.00625$ de la distribución normal estándar en la parte superior de la cola. Que trata de la $2.5$ (de nuevo, no paga a ser demasiado precisa sobre el límite, ya que nos estamos aproximando esta cosa de todo).

El d6 funciona de forma similar, pero el límite para que se corta una parte superior del área de la cola de $0.025/6$, lo cual corresponde aproximadamente a $c=2.64$ a la distribución normal.

Para la d4, si la hipótesis nula fuera verdadera, la real proporción de casos con cualquiera de los condes de caer fuera de los límites de 2.5 desviaciones estándar de la media sería de 4,2% (tengo esta por simulación) - fácilmente lo suficientemente cerca para mis propósitos, ya que no necesitan especialmente para ser el 5%. Los resultados para el d6 estará más cerca de un 5% (que resulta ser de alrededor del 4,5%). Así que todos esos niveles de aproximación funcionado bastante bien (haciendo caso omiso de la existencia de la negativa de la dependencia entre los recuentos, la corrección de Bonferroni aproximación a la persona de la cola de la probabilidad, y la aproximación normal a la binomial, y, a continuación, el redondeo de los puntos de corte para algún valor muy conveniente).

Estos gráficos no están destinadas a sustituir la prueba de chi-cuadrado (aunque podría), sino más bien para dar una evaluación visual, y para ayudar a identificar las principales contribuciones para el tamaño de la chi-cuadrado resultado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X