9 votos

Cómo reducir la dimensión con datos dispersos

Tengo 200 vectores que representan los porcentajes de las notas de 200 estudiantes diferentes en las distintas clases que tomaron. Los vectores tienen 22 dimensiones (ya que hubo 22 clases diferentes en total) aunque cada estudiante sólo tomó 6 clases. En otras palabras, no todos los estudiantes toman exactamente las mismas clases, por lo que los vectores son dispersos. Si los vectores fueran densos, utilizaría TSNE . Sin embargo, como son escasas, ni siquiera estoy seguro de cómo debo representar los valores de las clases que no toma cada estudiante.

¿Cuál es la forma más sensata de reducir la dimensión de los vectores dispersos de este tipo? El objetivo final, además de la visualización, es agrupar a los alumnos.

4voto

tchen Puntos 1344

Esto depende del objetivo de la agrupación.

El t-SNE, así como varios métodos de clustering (como el clustering jerárquico) pueden trabajar con matrices de distancia. Y es su trabajo construir una medida de distancia que capture lo que desea lograr. A continuación, algunos ejemplos.

Ejemplo 1

Si quiere agrupar a los alumnos en función de su capacidad para obtener buenas notas, la solución más sencilla sería ignorar las clases que faltan y comparar simplemente las notas medias que han obtenido. Así, la distancia entre dos estudiantes podría ser simplemente la diferencia de sus notas medias.

Una buena idea adicional sería ponderar cada clase en función de su dificultad (basándose, por ejemplo, en las notas medias que obtienen los alumnos en esa clase)

Ejemplo 2

Si los estudiantes son libres de elegir sus clases, puede agruparlos según sus intereses. En este caso, los intereses se reflejarían en el tipo de clases que han elegido. En este caso, ignoraría todas sus notas y simplemente codificaría las clases que faltan como 0 y las clases a las que han asistido como 1. A continuación, calcularía una medida de distancia entre los estudiantes basada en el número de clases en las que se solapan.

Ejemplo 3

Otro escenario posible es si se desea agrupar a los estudiantes en función de su capacidad en diversas materias. Aquí tendría que incorporar tanto las calificaciones como la selección de asignaturas. Una solución simple (léase tonta) sería reemplazar todas las entradas que faltan para cada estudiante con su habilidad promedio. O con la capacidad media de cada estudiante en esa asignatura.

La idea es que cuando el estudiante no tomó la clase - su mejor conjetura que él es promedio en esa clase.

Pero es posible que construyas una métrica mejor después de reflexionar un poco. Sólo hay que pensar en cuál debe ser la similitud entre los estudiantes cuando ninguna de sus clases se solapa.


t-SNE y clustering

Los ejemplos anteriores muestran algunas formas de construir una matriz de distancia entre estudiantes. Después se puede utilizar esa matriz tanto para el t-SNE como para el clustering.

3voto

user777 Puntos 10934

La descomposición del valor singular es una estrategia muy común para la reducción de la dimensión aplicada a los tipos de datos dispersos. Esto se debe a que se pueden aprovechar los solucionadores de SVD dispersos especializados (por ejemplo, ARPACK), y para la SVD las entradas no tienen que ser manipuladas de ninguna manera especial que pueda alterar la dispersidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X