2 votos

¿Supuesto detrás de las pocas características latentes en los sistemas de recomendación?

Sé que en los sistemas de recomendación se tiene una matriz de valoración y luego se factoriza esta matriz en dos matrices y luego se aprenden esas matrices con el descenso de gradiente. En esas matrices especificamos el número de dimensiones/características latentes que queremos. Así que una de ellas será de tamaño $number\_of\_users * k\_latent\_features$ . Mi pregunta es por qué elegimos el parámetro $K$ (número de características latentes) sea menor que el número de usuarios o artículos? No consigo entender la suposición de que el número de características latentes debe ser bajo.

0 votos

Después de La navaja de Occam intentamos explicar lo que vemos con un modelo sencillo (por ejemplo, pocas características latentes).

1voto

Marc Claesen Puntos 9818

Tras La navaja de Occam En este caso, tratamos de explicar lo que vemos con un modelo sencillo (por ejemplo, pocos rasgos latentes).

Si $K$ es igual al número de usuarios/artículos, podemos construir un número infinito de modelos que se ajusten perfectamente a los datos sin aprender nada (por ejemplo, estos modelos no generalizan).

Al elegir un $K$ Debemos tratar de aprender características recurrentes. Estos modelos no se ajustarán perfectamente a los datos, pero sí generalizan a los datos no vistos.

1 votos

¿qué quiere decir con características "recurrentes"?

1voto

Carlos Puntos 1421

Tres razones -

  1. Al proyectar a un espacio de menor dimensión, estamos diciendo que hay algunas categorías comunes (variables latentes) que describen nuestro comportamiento. Más pequeño significa mayor compresión, es decir, comprensión. Así que se utilizan menos categorías para explicar el comportamiento.
  2. Prácticamente, en cada paso estás multiplicando dos matrices. Las matrices grandes de matrices grandes significarían un mayor tiempo de procesamiento y más limitaciones de recursos. Por lo tanto, es preferible utilizar matrices más pequeñas.
  3. $K$ es realmente la dimensión VC de esto. Así que más alto $K$ significa que se necesitan más puntos de datos para estar seguro de ellos.

Lo ideal es empezar con una cantidad lo suficientemente pequeña $K$ y trabajar en incrementos de 10x utilizando la validación cruzada. Verás que los rendimientos disminuyen después de un tiempo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X