8 votos

¿Son estas poblaciones no aleatorios y diferentes?

¿Cuál sería el más simple, más directa-forwardest manera de determinar lo siguiente:

  1. Si a,B,C no es distribuyeron al azar en cada grupo (es decir: ¿hay más de Una en el grupo 1 que el azar podría predecir?)
  2. Si la distribución de a,B,C es diferente entre los grupos. (Es decir: el Grupo 1, se tiene más Cs de Bs, también lo hace el Grupo 2 -, pero es la diferencia entre los dos grupos significativos?)

Datos:

Group,  A,   B,   C,
   1,   126, 357, 348   N=382
   2,   86,  196, 139   N=207
   3,   63,  185, 162   N=193
   4...
   5...

Y en la mano de R-formato listo:

A <- c(126,86,63,54,47,40,32,32,29,29,27,26,20,18,14)
B <- c(357,196,185,137,95,74,45,69,64,49,54,80,62,41,56)
C <- c(348,139,162,126,82,69,35,63,40,42,40,55,44,29,35)
N <- c(382,207,193,143,100,80,45,70,70,53,55,84,67,42,57)

A,B,C son de cuenta de la presencia/ausencia de los rasgos dentro de cada grupo, por lo que muchos Como en el grupo 1 no lo son . Los grupos son cada uno por separado no relacionados con las poblaciones.

Ejemplo: digamos que cada grupo representa una especie de lagarto, mientras que a, B, C indicar si el lagarto tiene manchas en su cabeza(Una), el Cuerpo(B), o de la Cola(C). Para las especies 1 (Grupo 1) 382 lagartos fueron examinados, 126 tenía manchas en su cabeza, 357 en su cuerpo, 348 en su cola... De 207 especies de lagartos en 2, 86 había manchas de cabezas, 196 irregular de los cuerpos, 139 irregular colas.

Así, es spottiness no aleatoria de los miembros de un grupo? Y no spottiness varían significativamente entre los grupos?

Creo que esta es una cuestión fundamental, pero mientras que yo he sido de ataques a través de innumerables páginas de la teoría de la explicación de los diferentes modelos que buscan en situaciones más complejas, he perdido totalmente de vista de los fundamentos-que yo sólo han aprendido recientemente.

Gracias por ayudarme a volver a la pista.

4voto

Boris Tsirelson Puntos 191

Para la pregunta 2, yo empezaría mirando la distribución de los porcentajes de cada grupo que tienen un rasgo determinado. por ejemplo:

A <- c(126,86,63,54,47,40,32,32,29,29,27,26,20,18,14)
B <- c(357,196,185,137,95,74,45,69,64,49,54,80,62,41,56)
C <- c(348,139,162,126,82,69,35,63,40,42,40,55,44,29,35)
N <- c(382,207,193,143,100,80,45,70,70,53,55,84,67,42,57)

A <- A/N
B <- B/N
C <- C/N

Entonces usted puede hacer algunos tallo y hoja parcelas para examinar las distribuciones:

> stem(A)

  The decimal point is 1 digit(s) to the left of the |

  2 | 5
  3 | 01338
  4 | 123679
  5 | 05
  6 | 
  7 | 1

> stem(B)

  The decimal point is 2 digit(s) to the left of the |

   90 | 4
   92 | 5555
   94 | 70289
   96 | 6
   98 | 226
  100 | 0

> stem(C)

  The decimal point is 1 digit(s) to the left of the |

  5 | 7
  6 | 15679
  7 | 389
  8 | 2468
  9 | 01

Los tres parecen algo normales, pero que es bastante subjetivo. Sólo la.71 en stem(A) parece ser un outlier a mí.

3voto

Daniel Moura Puntos 4298

no estoy seguro si entiendo el problema correctamente, así que me corrija si estoy equivocado, pero he aquí mis pensamientos:

Así, es spottiness no aleatoria de los miembros de un grupo? Y no spottiness varían significativamente entre los grupos?

No estoy seguro de si la primera pregunta es responder con los datos que se presentan. Si los datos disponibles en la siguiente forma:

         Head Tail Body Group
Lizard 1   Y    N    N    A
Lizard 2   Y    Y    N    A
            ...

Uno sería capaz de probar la aleatoriedad de los individuos. Sin embargo, los individuos - como tengo entendido no disponible - a la derecha? Lo mismo se aplica para la segunda pregunta, que yo simplemente prueba con un test de Mann-Whitney U-test o algo así (en R uso ?wilcox.test).

Así que espero que me de el problema de la derecha - si no por favor me corrija!


EDITAR

En cuanto a la segunda pregunta: si para determinar si usted tiene considerablemente más personas con manchas en un grupo que en otro. uno (tal vez a simple) en el camino que estaba tomando la distribución dada de arriba (con la normal de densidades en azul):

distributions with superimposted normal distributions (blue)

y asumiendo una distribución normal y, a continuación, las pruebas de cada grupo con respecto a la media. que sería: $z = (A_1 - \bar{A}) / \sigma_A$ $\bar{A}$ siendo la media del grupo $A$.

Corrígeme si me equivoco, pero esto daría a los siguientes valores de p:

pnorm((A-mean(A))/sd(A))
  [1] 0.21718755 0.47952112 0.20871568 0.35415346 0.66053450 0.74852194
  [7] 0.99325922 0.61952780 0.47553465 0.85819411 0.72317286 0.16977245
 [13] 0.14707919 0.52412299 0.06677287

2voto

Sean Hanley Puntos 2428

No estoy seguro de entender completamente la situación (sus datos o su pregunta). @Zach tiene algunas buenas ideas, así que pensé en seguir su ejemplo y hacer algo de información y vamos a ver si de algo ayuda.

1) Para determinar si los datos son aleatorios, las pistas se puede usar la prueba. Una carrera es una serie de puntos de datos que son similares de alguna manera. Hay (al menos) dos formas de hacer una prueba funciona. Primero, usted puede comprobar si cada nuevo punto de datos es mayor o menor que la anterior, alternativamente, usted puede comprobar si cada punto de datos es alto o bajo en relación a la mediana. Ambos de estos se supone que los datos son ordenados según la secuencia temporal en que fueron generados. A partir de ahí, utilice uno de los métodos anteriores para convertir sus datos en una cadena de unos y ceros. Secuencial de valores del mismo tipo de ejecución (por ejemplo, 1101 es de 3 carreras). El número de ejecuciones es una variable aleatoria binomial. Aquí está el código para R:

# compute proportions & create vectors for runs
Aprop   = A/N;     Bprop   = B/N;     Cprop   = C/N
Achange = c();     Bchange = c();     Cchange = c()
Ahigh   = c();     Bhigh   = c();     Chigh   = c()

for(i in 1:length(N)) {
  if(i>1) {
    # determine if values went up or down
    Achange[i-1] = (Aprop[i]-Aprop[i-1])>0
    Bchange[i-1] = (Bprop[i]-Bprop[i-1])>0
    Cchange[i-1] = (Cprop[i]-Cprop[i-1])>0
  }
  # determine if values are high or low
  Ahigh[i] = Aprop[i]>median(Aprop)
  Bhigh[i] = Bprop[i]>median(Bprop)
  Chigh[i] = Cprop[i]>median(Cprop)
}

# conduct analyses
round(Aprop, 2)     
# [1] 0.33 0.42 0.33 0.38 0.47 0.50 0.71 0.46 0.41 0.55 0.49 0.31 0.30 0.43 0.25

as.numeric(Achange)            # [1] 1 0 1 1 1 1 0 0 1 0 0 0 1 0     (8 runs)
runs.test(as.factor(Achange))

    Runs Test

data:  as.factor(Achange) 
Standard Normal = 0, p-value = 1
alternative hypothesis: two.sided

as.numeric(Ahigh)             # [1] 0 0 0 0 1 1 1 1 0 1 1 0 0 1 0     (7 runs)
runs.test(as.factor(Ahigh))

    Runs Test

data:  as.factor(Ahigh) 
Standard Normal = -0.7898, p-value = 0.4297
alternative hypothesis: two.sided

Así, el grupo a se ve al azar de acuerdo con ambos métodos. (Tenga en cuenta que la prueba se basa en una muestra de gran teoría, y su N es 15, pero los datos parecen ACEPTAR. También recuerde que, si usted tiene un montón de grupos y ejecutar un montón de pruebas en ellos, algo que es probable que se muestre ya sea real o no).

2) Para determinar si las distribuciones son similares, se puede calcular las estadísticas de resumen y gráficos. A menudo me encuentro gráficos más útil. Dos gráficos que me gusta son kernel de la densidad de las parcelas y el qq-parcelas. Un kernel desity trama es como un alisado histograma. Es fácil de trazar varias distribuciones juntos. Un qq-plot es un diagrama de dispersión de una distribución en contra de otro, después de que ambos han sido ordenados en orden ascendente. Si las dos distribuciones tienen formas similares, los puntos deben estar a lo largo de una línea de 45 grados que pasa por el origen. La mayoría de la gente piensa q-parcelas como una forma de comparar una distribución teórica de la distribución normal, pero que puede ser utilizado para cualquier teórico de la distribución (por ejemplo, Weibull) o la distribución empírica de otro conjunto de datos. Por lo tanto, usted podría hacer una serie de parcelas para las comparaciones por pares. También ayuda a trazar la línea de 45 grados para ayudar con la interpretación. Aquí hay algunas código R y gráficos:

summary(Aprop)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
# 0.2456  0.3281  0.4155  0.4215  0.4805  0.7111 

windows()
plot( density(Aprop), col="gold", xlim=c(0,1))
lines(density(Bprop), col="red")
lines(density(Cprop), col="blue")
legend("topleft", c("Aprop","Bprop","Cprop"), lty=1,
       col=c("gold","red","blue"))

windows()
qqplot(Aprop, Cprop)
abline(0, 1)

windows()
qqplot(Aprop, Bprop)
abline(0, 1)

enter image description hereenter image description hereenter image description here

La primera qq-plot muestra que las distribuciones de Un grupo y el grupo C son bastante similares, siguen la línea de 45 grados bastante bien. Es sólo que C es sistemáticamente superior a la de A. Esto se puede confirmar observando el diagrama de densidad. En primer lugar, la parte inferior qq-plot se ve bien, pero se nota que la línea de 45 grados no aparecen en la trama de la ventana. Eso es un gran tip-off. Si usted mira las escalas, se ve que B varía entre .91 y 1.0, mientras que Un varía de .3 a .7. A y B no son similares, como se puede ver en el diagrama de densidad. La densidad de las parcelas son muy informativo, pero también pueden exagerar la forma de una distribución. Es por eso que es bueno para la trama de ambos. A y C se ven bien diferentes en la densidad de la trama, pero basado en el qq-plot, yo apostaría a que las diferencias en las formas de las distribuciones de no ser confiable. Y ambas parcelas sugieren @Zach está en lo correcto acerca de que las demás.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X