Estoy realizando algunos de regresión de la tarea, donde trato de descubrir el subyacente multivariante Gaussianas a partir de un conjunto de $n$, $p$-dimensiones de los vectores. Por ejemplo, dada una fracción del conjunto, en $S_i$ $S_j$ me va a calcular la muestra de medios y matrices de covarianza (${\sum}_{i,j}$)y decidir cual es la mejor división basada en la ganancia de información(definida por la entropía ($log(det({\sum}_{i,j}))$). Y luego nos recurse en los subconjuntos $S_i$$S_j$.
Estoy tratando de definir algunos criterios de parada para este algoritmo, que básicamente debe ser que cuando la varianza de la distribución es lo suficientemente pequeño (no estoy seguro de cómo definir este umbral) de la parada para evitar el sobre-ajuste a los datos de entrenamiento.
Así que, mis preguntas son:
1) ¿Cómo puedo obtener una medida de la varianza global,$trace({\sum})$?
2) ¿Cómo puedo elegir un umbral adecuado?
Gracias