Estoy intentando ajustar un modelo de conglomerados bivariante con X e Y. Lo que me gustaría hacer es descartar (hacer no conglomerados / no agrupados) los que están lejos del centro del conglomerado (por ejemplo $\mu$ + 2*desviación estándar) en cada dirección.
X2 <- c(rnorm(150, 10, 1),rnorm(50, 10, 5), rnorm(150, 25,1),
rnorm(50, 25, 20), rnorm(200,35,1), rnorm(200,80,1), rpois(50,30))
Y2 <- c(rnorm(800, 30, 2), rpois(50,30))
df <- cbind (X2, Y2)
plot(df, pch = 20, col = "gray40", ylim = c(15,45), xlim = c(-10, 90))
Estoy esperando 4 clusters aquí y me gustaría agrupar sólo aquellos dentro de la elipse que tiene alta probabilidad (digamos con en $\mu$ + 2*desviación estándar tanto en X como en Y) y hacer el resto sin agrupar.
Esto es lo que se intentó con el modelo de mezcla:
require(mixtools)
out <- mvnormalmixEM(df, lambda = NULL, mu = NULL, sigma = NULL, k = 4,
arbmean = TRUE, arbvar = TRUE,
epsilon = 1e-08, maxit = 10000, verb = FALSE)
plot(out, density = TRUE, alpha = c(0.01, 0.05, 0.10, 0.12, 0.15),
marginal = TRUE)
No sé cómo poner tal umbral aquí.