6 votos

Prueba si dos conjuntos de datos son significativamente diferentes

Hay 1400 rojo caracoles, 800 azul caracoles, y 500 verde caracoles. Hay tres parques: Un Parque, el Parque de B y el Parque C

Me parece que - 800 rojo caracoles viven en Un Parque , 200 rojo caracoles viven en el Parque B y 400 roja de los caracoles en el Parque C. - 100 azul caracoles viven en Un Parque , 600 azul caracoles viven en el Parque B y 100 azul caracoles en el Parque C. - 400 verde caracoles viven en Un Parque , 50 verdes caracoles viven en el Parque de B y 50 verde caracoles en el Parque C.

¿Cómo puedo demostrar que la proporción de caracoles de colores que ir a diferentes Parques es estadísticamente significativamente diferentes. Puedo trabajar la proporción de los caracoles que ir a cada parque, pero quiero ser capaz de decir con confianza estadística que sus proporciones son diferentes. Cómo lo voy a hacer con este ejemplo de arriba?

7voto

Antoni Parellada Puntos 2762

Esto puede ser abordado como una prueba de la chi cuadrado de homogeneidad. Quieres ver si hay diferencias desde un punto de distribución uniforme a través de los parques en la cuenta de caracoles procedentes de diferentes poblaciones o grupos (colores). Los márgenes de los datos tabulados se consideran variables aleatorias, y se utiliza para cruzar multiplicar y obtener la espera de conteo en cada celda.

Aquí está su tabulados los datos reales y los esperados cuenta:

> addmargins(round(snails, 0))
       park
snails     A   B   C  Sum
  red    800 200 400 1400
  blue   100 600 100  800
  green  400  50  50  500
  Sum   1300 850 550 2700
> addmargins(round(chisq.test(snails)$expected,0))
       park
snails     A   B   C  Sum
  red    674 441 285 1400
  blue   385 252 163  800
  green  241 157 102  500
  Sum   1300 850 550 2700

La prueba de la chi cuadrado se puede ejecutar en R como sigue:

chisq.test(snails)

    Pearson's Chi-squared test

data:  snails
X-squared = 1123, df = 4, p-value < 2.2e-16

Así que no hay evidencia de que la distribución de los diferentes tipos de caracol a través de los parques no es homogénea.

He aquí algunos de trazado de los resultados y estandarizada de los residuos:

enter image description here

Tal vez la parte más interesante de tu pregunta es para discutir qué hacer con los resultados de un ómnibus de la prueba en un mayor que $2 \times 2$ tabla de contingencia. En este el jurado está todavía fuera (sorprendentemente) - en esta se puede comprobar esta referencia muy útil. Pero los residuos o residuos estandarizados son un inicio, y se puede encontrar de manera gráfica se traza, y con colores. Muchas conclusiones se pueden extraer de la observación de los residuos mosaico de la parcela, y después de todo, parece que al menos algunos de los autores están aún toleran un poco de post-chi "ojo de bolas."

En el artículo I de enlace existen procedimientos para una descripción más detallada del análisis post-hoc de los datos. Un enfoque diferente totalmente podría ser generalizada del modelo de regresión lineal.

Aquí es la interpretación, y el código:

snails <- matrix(c(800, 200, 400, 
                   100, 600, 100,
                   400, 50, 50), nrow = 3, byrow = T)
dimnames(snails) = list(snails = c("red", "blue", "green"),
                       park = c("A", "B", "C"))
snails

addmargins(round(snails, 0))
addmargins(round(chisq.test(snails)$expected,0))
chisq.test(snails)
library(vcd)
mosaic(snails, shade=TRUE, legend=TRUE)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X