64 votos

¿Cómo se debe interpretar la comparación de las medias de diferentes tamaños de muestra?

Tomemos el caso de las valoraciones de libros en un sitio web. El libro A es valorado por 10.000 personas con un media de 4,25 y la varianza $\sigma = 0.5$ . Del mismo modo, el libro B ha sido valorado por 100 personas y tiene una puntuación de 4,5 con $\sigma = 0.25$ .

Ahora, debido al gran tamaño de la muestra del Libro A, la "media se estabilizó" en 4,25. Ahora, para 100 personas, puede ser que si más personas leen el Libro B la valoración media baje a 4 o 4,25.

  • ¿cómo se debe interpretar la comparación de medias de diferentes muestras y cuáles son las mejores conclusiones que se pueden/deben sacar?

Por ejemplo, ¿podemos decir realmente que el Libro B es mejor que el Libro A?

0 votos

¿Está interesado específicamente en el contexto de la calificación?

0 votos

@JeromyAnglim - Hmmm... probablemente. No estoy seguro. Ese es el ejemplo más común. ¿Qué tienes en mente?

2 votos

Véase mi respuesta sobre los sistemas de clasificación bayesianos más abajo. Los contextos de calificación aplicada suelen tener cientos o miles de objetos que se califican, y el objetivo suele ser formar la mejor estimación de la calificación del objeto dada la información disponible. Esto es muy diferente a una simple comparación de dos grupos como la que podría encontrarse, por ejemplo, en un experimento médico con dos grupos.

76voto

Sean Hanley Puntos 2428

Puede utilizar una prueba t para evaluar si hay diferencias en las medias. Los diferentes tamaños de las muestras no suponen un problema para la prueba t, y no requieren que los resultados se interpreten con más cuidado. En última instancia, incluso se puede comparar una única observación con una población infinita con una distribución y una media y una DE conocidas; por ejemplo, alguien con un CI de 130 es más inteligente que el 97,7% de las personas. Sin embargo, hay que tener en cuenta que para una $N$ (es decir, total tamaño de la muestra), la potencia se maximiza si el grupo $n$ son iguales; con tamaños de grupo muy desiguales, no se obtiene tanta resolución adicional con cada observación adicional.

Para aclarar mi punto sobre la potencia, aquí hay una simulación muy simple escrita para R:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

Observe que en todos los casos $N=100$ pero que en el primer caso $n_1=50$ & $n_2=50$ en el segundo caso $n_1=75$ & $n_2=25$ y en el último caso $n_1=90$ y $n_2=10$ . Obsérvese además que la diferencia de medias estandarizada / proceso de generación de datos fue el mismo en todos los casos. Sin embargo, mientras que la prueba fue "significativa" el 70% de las veces para la muestra 50-50, la potencia fue del 56% con 75-25 y sólo del 33% cuando los tamaños de los grupos eran 90-10.

Pienso en esto por analogía. Si quieres saber el área de un rectángulo, y el perímetro es fijo, entonces el área será máxima si la longitud y la anchura son iguales (es decir, si el rectángulo es un cuadrado ). Por otro lado, a medida que la longitud y la anchura son divergentes (a medida que el rectángulo se alarga), el área se reduce.

0 votos

¿se maximiza la potencia? No estoy seguro de entenderlo. ¿Podría dar un ejemplo, si es posible?

9 votos

La razón por la que la prueba t puede manejar tamaños de muestra desiguales es que tiene en cuenta el error estándar de las estimaciones de las medias de cada grupo. Es decir, la desviación estándar de la distribución del grupo dividida por la raíz cuadrada del tamaño de la muestra del grupo. El grupo con un tamaño de muestra mucho mayor tendrá un error estándar menor si las desviaciones estándar de la población son iguales o casi iguales.

1 votos

@gung - No estoy seguro de saber realmente en qué "idioma" está escrita esta simulación. Supongo que 'R' y todavía estoy tratando de descifrarlo :)

18voto

Eric Davis Puntos 1542

Además de la respuesta mencionada por @gung que le remite a la prueba t, parece que podría interesarle Sistemas de clasificación bayesiana . Los sitios web pueden utilizar este tipo de sistemas para clasificar artículos que varían en el número de votos recibidos. Esencialmente, estos sistemas funcionan asignando una valoración que es un compuesto de la valoración media de todos los artículos más la media de la muestra de valoraciones para el objeto específico. A medida que aumenta el número de valoraciones, el peso asignado a la media del objeto aumenta y el peso asignado a la valoración media de todos los artículos disminuye. Tal vez se pueda comprobar medias bayesianas .

Por supuesto, las cosas pueden ser mucho más complejas si se trata de una amplia gama de cuestiones como el fraude electoral, los cambios a lo largo del tiempo, etc.

1 votos

Qué bien. Nunca he oído hablar de él. Definitivamente lo investigaré. Tal vez sea lo que busco, después de todo :)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X