Un estadístico de chi-cuadrado se hace más grande el más de lo esperado las entradas. El p-valor más pequeño. Muy pequeños los valores de p se dice que "Si la hipótesis nula de igualdad de probabilidades eran verdaderos, algo realmente raro que acaba de suceder" (el habitual conclusión es, por lo general, que algo menos notable que ocurrió bajo la alternativa de que no son igualmente probables).
La correcta de la chi-cuadrado valor para el recuento de células de la 1500 1500 1500 1500
es 0 y la correcta p-valor es 1:
chisq.test(c(1500,1500,1500,1500))
Chi-squared test for given probabilities
data: c(1500, 1500, 1500, 1500)
X-squared = 0, df = 3, p-value = 1
Su fórmula del chi cuadrado estadística está mal. Una de las imágenes que has publicado habida cuenta de 1500 1500 0 1500
. En ese caso, el valor de chi-cuadrado es de 1500, y el p-valor es efectivamente 0:
chisq.test(c(1500,1500,0,1500))
Chi-squared test for given probabilities
data: c(1500, 1500, 0, 1500)
X-squared = 1500, df = 3, p-value < 2.2e-16
Por lo que calculó el chi cuadrado de 1 cuando usted debe tener 0 y calcula 0 cuando usted debe tener 1500.
¿Qué fórmula se utiliza?
(Una comprobación adicional, en estas cuatro más típico de la cuenta
1 2 3 4
1481 1542 1450 1527
usted debe obtener un chi-cuadrado de 3.5693 )
---
En el uso de las pruebas de chi cuadrado para probar dados por la equidad de ver esta pregunta
Me dio una respuesta que señala que - si realmente quieres a prueba de dados usted podría considerar la posibilidad de otras pruebas.
---
Como señaló en su respuesta, el CHITEST
función en Excel devuelve el valor de p en lugar de la estadística de prueba (que parece una especie de extraño para mí, dado que se puede conseguir con CHIDIST
).
En el caso de que todos los valores esperados son la misma, una forma rápida de obtener el valor de chi-cuadrado en sí es el uso de =SUMXMY2(obs.range,exp.range)/exp.range.1
,
donde obs.range
es el rango de los valores observados y exp.range
es el rango
de los correspondientes valores esperados, y donde, exp.range.1
es la primera (o cualquier otro) valor en exp.range
, dando algo como esto:
1 2 3 4
Exp 1500 1500 1500 1500
Obs 1481 1542 1450 1527
chi-sq. p-value
3.5693 0.31188
Un leve torpe pero aun alternativa más fácil es usar CHIINV(p.value,3)
, para obtener el estadístico de chi-cuadrado, donde p.value
es el rango del valor devuelto por CHITEST
.
--
Edit: Aquí está un par de puntos para los dos conjuntos de datos publicados.
El sólido líneas grises se espera que el número de veces que cada cara sale en una feria de morir.
El interior par de líneas discontinuas son aproximados límites entre los cuales el individuo se enfrentan resultados debe estar el 95% del tiempo, si los dados fueron justos. (Así que si usted rodó un d20, tendría que esperar el conteo en una cara - en promedio - a estar fuera en el interior de los límites.)
El par exterior de las líneas de puntos son aproximados Bonferroni límites dentro de los cuales los resultados en todos los rostros se encuentran alrededor del 95% del tiempo, si los dados fueron justos. Si a cualquier cuenta que estuviera fuera de aquellos límites, usted tendría alguna razón para sospechar que el morir podría estar sesgado.
Editar para añadir alguna explicación --
La trama es sólo una parcela de la cuenta. Para un dado con $k$ lados, el recuento del número de veces que una determinada cara viene (un individuo count) es distribuido de forma efectiva como un binomio. Si la hipótesis nula (de una feria de morir) es cierto, es binomial$(N,1/k)$.
El binomio$(N,p)$ es decir $\mu=Np$ y la desviación estándar $\sigma=\sqrt{Np(1-p)}$.
Por lo que el centro de la línea gris es marcada en $\mu=N/k$. Esta cantidad que usted ya sabe cómo hacerlo.
Si $N$ es grande y $p = 1/k$ no está demasiado cerca de 0 o 1, entonces el estandarizados $i^\text{th}$ recuento ($\frac{(X_i-\mu)}{\sigma}$) será bien aproximada por una distribución normal estándar. Alrededor del 95% de una distribución normal, se encuentra dentro de 2 desviaciones estándar de la media. Así que dibujé el interior de las líneas de puntos en $\mu \pm 2\sigma$. La cuenta no son independientes unos de otros (ya que añadir que el número total de rollos deben ser correlacionados negativamente), pero de forma individual tienen aproximadamente los límites a 95% de nivel.
Ver aquí, pero yo solía $z=2$ en lugar de $z=1.96$ - esto es de poca importancia, porque no me importaba si era un 95.4% de intervalo en lugar de un 95%, y es sólo aproximado de todos modos.
Así que le da las líneas punteadas.
En consecuencia, si el sorteo recuento de todos los independientes (que no están del todo, como ya he mencionado), la probabilidad de que todos mienten en algunos obligado es el $k^\text{th}$ de la potencia de la probabilidad de que uno hace. Para una aproximación, para ensayos independientes si desea que la tasa global (a través de todas las caras) de caer fuera de los límites para ser acerca de $5\%$, el individuo probabilidades debe ser de alrededor de $0.05/k$ (hay varias etapas de aproximación aquí, ni siquiera contando la aproximación normal; para trabajar realmente con precisión que usted necesita un montón de caras y pequeñas probabilidades de caer fuera de los límites).
Así que con $k$ caras y un total $5\%$ tasa de estar fuera de los límites, quiero que la probabilidad de que el individuo que se está por encima de cada límite para ser aproximadamente la mitad de esa o $0.025/k$. Con 4 caras que una proporción de $0.025/4 = 0.00625$ por encima del límite superior e $0.00625$ por debajo de la inferior.
Así que dibujé los límites exteriores de los cuatro colindado mueren (d4) en el caso en $\mu \pm c\sigma$ donde $c$ corta $0.00625$ de la distribución normal estándar en la parte superior de la cola. Que trata de la $2.5$ (de nuevo, no paga a ser demasiado precisa sobre el límite, ya que nos estamos aproximando esta cosa de todo).
El d6 funciona de forma similar, pero el límite para que se corta una parte superior del área de la cola de $0.025/6$, lo cual corresponde aproximadamente a $c=2.64$ a la distribución normal.
Para la d4, si la hipótesis nula fuera verdadera, la real proporción de casos con cualquiera de los condes de caer fuera de los límites de 2.5 desviaciones estándar de la media sería de 4,2% (tengo esta por simulación) - fácilmente lo suficientemente cerca para mis propósitos, ya que no necesitan especialmente para ser el 5%. Los resultados para el d6 estará más cerca de un 5% (que resulta ser de alrededor del 4,5%). Así que todos esos niveles de aproximación funcionado bastante bien (haciendo caso omiso de la existencia de la negativa de la dependencia entre los recuentos, la corrección de Bonferroni aproximación a la persona de la cola de la probabilidad, y la aproximación normal a la binomial, y, a continuación, el redondeo de los puntos de corte para algún valor muy conveniente).
Estos gráficos no están destinadas a sustituir la prueba de chi-cuadrado (aunque podría), sino más bien para dar una evaluación visual, y para ayudar a identificar las principales contribuciones para el tamaño de la chi-cuadrado resultado.