Conozco la suposición i.i.d para los datos en los modelos de aprendizaje supervisado, es decir, que los datos se distribuyen de forma idéntica e independiente. Sin embargo, no entiendo cómo/por qué el Clustering viola esta suposición.
Respuestas
¿Demasiados anuncios?La premisa básica de la agrupación es que puede haber alguna relación entre los individuos de cada agrupación. Sin embargo, no estoy seguro de que sea correcto decir que la independencia se viola automáticamente debido a la agrupación. De hecho, cuando hacemos modelos jerárquicos (es decir, agrupados), primero comprobamos el nivel de agrupación calculando la correlación intraclase (ICC) y el efecto de diseño (DEFF). Si no son muy grandes (normalmente más de 0,05 o 2, respectivamente), algunos creen que es aceptable ignorar la agrupación.
Debo señalar que muchos investigadores (debería tener una cita aquí) consideran que la modelización jerárquica debe utilizarse siempre que haya alguna agrupación en los datos.
Podría decirse que es más fácil ver por qué la agrupación viola el supuesto de IID desde la perspectiva de un modelo generativo. El modelo generativo es como una historia o un plano que dice qué proceso genera los datos observados. Si los datos generados son indistinguibles de los datos observados, se puede estar bastante seguro del proceso y realizar muchas tareas de inferencia.
La historia es así:
- Definir el número de clusters $K$
- Inicializar el vector de probabilidades de elección de clústeres $\pi = (\pi_1, \ldots, \pi_K)$
- Inicializar las distribuciones de los clusters $p(x|C)$
- Inicializar las asignaciones de puntos de datos $z_i$ (por ejemplo, al azar)
- Para cada punto de datos $x_i$
- Ejemplo de asignación de grupos $j \sim Dirichlet(\pi)$ según el vector de probabilidades de elección $\pi$
- Punto de datos de muestra de la agrupación seleccionada $x_i \sim p(x|C_j)$
- Devuelve el conjunto de datos
Como puede ver, el proceso comienza con la generación de la selección del clúster seguida del muestreo de un punto de datos del mismo. Todos los puntos de datos generados a partir del mismo clúster violan el IID, ya que proceden de la misma distribución (por ejemplo, la gaussiana).
Le sugiero que busque un buen texto introductorio sobre el Modelo de Mezcla Gaussiana (o el Modelo de Mezcla Bernoulli) para obtener más detalles.
En mi opinión, como estudiante universitario, la i.i.d. es la suposición sobre la distribución de los datos de la muestra. Si los datos son aleatorios, la ley de los grandes números se cumple, ya que si se recogen más datos al azar, la mayor frecuencia de la población será la media (la mayor frecuencia) y también las otras frecuencias menores tendrán la forma de una distribución normal, ya que el número de muestras es grande. Pero cuando se trata de agrupar, por ejemplo, los datos recogidos en la ciudad de Nueva York para representar a toda la población de los Estados Unidos, será erróneo porque la agrupación sólo dará la mayor frecuencia en la ciudad de Nueva York, no la mayor frecuencia en los Estados Unidos, y el resultado que se obtenga puede ser totalmente diferente.