Esto depende del objetivo de la agrupación.
El t-SNE, así como varios métodos de clustering (como el clustering jerárquico) pueden trabajar con matrices de distancia. Y es su trabajo construir una medida de distancia que capture lo que desea lograr. A continuación, algunos ejemplos.
Ejemplo 1
Si quiere agrupar a los alumnos en función de su capacidad para obtener buenas notas, la solución más sencilla sería ignorar las clases que faltan y comparar simplemente las notas medias que han obtenido. Así, la distancia entre dos estudiantes podría ser simplemente la diferencia de sus notas medias.
Una buena idea adicional sería ponderar cada clase en función de su dificultad (basándose, por ejemplo, en las notas medias que obtienen los alumnos en esa clase)
Ejemplo 2
Si los estudiantes son libres de elegir sus clases, puede agruparlos según sus intereses. En este caso, los intereses se reflejarían en el tipo de clases que han elegido. En este caso, ignoraría todas sus notas y simplemente codificaría las clases que faltan como 0 y las clases a las que han asistido como 1. A continuación, calcularía una medida de distancia entre los estudiantes basada en el número de clases en las que se solapan.
Ejemplo 3
Otro escenario posible es si se desea agrupar a los estudiantes en función de su capacidad en diversas materias. Aquí tendría que incorporar tanto las calificaciones como la selección de asignaturas. Una solución simple (léase tonta) sería reemplazar todas las entradas que faltan para cada estudiante con su habilidad promedio. O con la capacidad media de cada estudiante en esa asignatura.
La idea es que cuando el estudiante no tomó la clase - su mejor conjetura que él es promedio en esa clase.
Pero es posible que construyas una métrica mejor después de reflexionar un poco. Sólo hay que pensar en cuál debe ser la similitud entre los estudiantes cuando ninguna de sus clases se solapa.
t-SNE y clustering
Los ejemplos anteriores muestran algunas formas de construir una matriz de distancia entre estudiantes. Después se puede utilizar esa matriz tanto para el t-SNE como para el clustering.