Puede utilizar una prueba t para evaluar si hay diferencias en las medias. Los diferentes tamaños de las muestras no suponen un problema para la prueba t, y no requieren que los resultados se interpreten con más cuidado. En última instancia, incluso se puede comparar una única observación con una población infinita con una distribución y una media y una DE conocidas; por ejemplo, alguien con un CI de 130 es más inteligente que el 97,7% de las personas. Sin embargo, hay que tener en cuenta que para una $N$ (es decir, total tamaño de la muestra), la potencia se maximiza si el grupo $n$ son iguales; con tamaños de grupo muy desiguales, no se obtiene tanta resolución adicional con cada observación adicional.
Para aclarar mi punto sobre la potencia, aquí hay una simulación muy simple escrita para R:
set.seed(9) # this makes the simulation exactly reproducible
power5050 = vector(length=10000) # these will store the p-values from each
power7525 = vector(length=10000) # simulated test to keep track of how many
power9010 = vector(length=10000) # are 'significant'
for(i in 1:10000){ # I run the following procedure 10k times
n1a = rnorm(50, mean=0, sd=1) # I'm drawing 2 samples of size 50 from 2 normal
n2a = rnorm(50, mean=.5, sd=1) # distributions w/ dif means, but equal SDs
n1b = rnorm(75, mean=0, sd=1) # this version has group sizes of 75 & 25
n2b = rnorm(25, mean=.5, sd=1)
n1c = rnorm(90, mean=0, sd=1) # this one has 90 & 10
n2c = rnorm(10, mean=.5, sd=1)
power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value # here t-tests are run &
power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value # the p-values are stored
power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value # for each version
}
mean(power5050<.05) # this code counts how many of the p-values for
[1] 0.7019 # each of the versions are less than .05 &
mean(power7525<.05) # divides the number by 10k to compute the %
[1] 0.5648 # of times the results were 'significant'. That
mean(power9010<.05) # gives an estimate of the power
[1] 0.3261
Observe que en todos los casos $N=100$ pero que en el primer caso $n_1=50$ & $n_2=50$ en el segundo caso $n_1=75$ & $n_2=25$ y en el último caso $n_1=90$ y $n_2=10$ . Obsérvese además que la diferencia de medias estandarizada / proceso de generación de datos fue el mismo en todos los casos. Sin embargo, mientras que la prueba fue "significativa" el 70% de las veces para la muestra 50-50, la potencia fue del 56% con 75-25 y sólo del 33% cuando los tamaños de los grupos eran 90-10.
Pienso en esto por analogía. Si quieres saber el área de un rectángulo, y el perímetro es fijo, entonces el área será máxima si la longitud y la anchura son iguales (es decir, si el rectángulo es un cuadrado ). Por otro lado, a medida que la longitud y la anchura son divergentes (a medida que el rectángulo se alarga), el área se reduce.
0 votos
¿Está interesado específicamente en el contexto de la calificación?
0 votos
@JeromyAnglim - Hmmm... probablemente. No estoy seguro. Ese es el ejemplo más común. ¿Qué tienes en mente?
2 votos
Véase mi respuesta sobre los sistemas de clasificación bayesianos más abajo. Los contextos de calificación aplicada suelen tener cientos o miles de objetos que se califican, y el objetivo suele ser formar la mejor estimación de la calificación del objeto dada la información disponible. Esto es muy diferente a una simple comparación de dos grupos como la que podría encontrarse, por ejemplo, en un experimento médico con dos grupos.