1 votos

ANOVA unidireccional con diferentes tamaños de muestra - cálculo

Necesito escribir mi propia función en R para el ANOVA unidireccional con diferentes tamaños de muestra. En la wiki hay un buen ejemplo de cómo calcular la razón F si los tamaños de las muestras son iguales:

https://en.wikipedia.org/wiki/One-way_analysis_of_variance

Ya he leído varias veces que básicamente no hay diferencia en la forma de cálculo, sin embargo, tengo un par de preguntas (refiriéndome al ejemplo de la wikipedia):

Paso 2: Calcular la media global:

Con diferentes tamaños de muestra, ¿sigo tomando la media de las medias o la media de todas las observaciones de todos los grupos juntos?

Paso 3: Tengo que sustituir $n$ por $n_1, n_2,...$ donde $n_i$ es el número de observaciones en el grupo i-ésimo, ¿verdad?

Gracias de antemano.

0voto

Alex Puntos 128

Tomar la media de las medias no es un método adecuado para estimar la media general cuando los tamaños de las muestras no son iguales.

En el caso de que todos los grupos, digamos que tenemos $m$ de ellos, tienen el mismo número de observaciones, llámese $k$ ...

$$ \hat{\mu} = \sum \dfrac{x_i}{n} = \sum \dfrac{k \hat{\mu}_i}{m k} = \sum \dfrac{\hat{\mu}_i}{m} $$

Así que la media de las medias es algebraicamente equivalente a tomar la media general. Pero, cuando los tamaños de las muestras no son iguales, la factorización de $n=mk$ no es cierto. Así que tomar la media de las medias en este caso da demasiado peso a las medias con tamaños de muestra más pequeños.

Lo que se puede hacer es ponderar las medias según el número de muestras de cada media. Esto equivaldría a ponderar con la proporción de la muestra total que se encuentra en cada grupo.

$$\hat{\mu} = \sum \dfrac{n_i \hat{\mu}_i}{n} = \dfrac{ \sum w_i \hat{\mu}_i}{\sum w_i }$$

Es fácil cocinar un ejemplo de esto

library(tidyverse)

#Highly imbalanced groups
group = c(rep(0, 90), rep(1, 10))
x = rpois(100,5)
d = tibble(group = group, x = x) 

summarise(d, m=mean(x))

d %>% 
  group_by(group) %>% 
  summarise(m = mean(x), n = n()) %>% 
  ungroup() %>% 
  summarise(m = mean(m)) 

Comprueba que la media de las medias no es la misma que la media general.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X