6 votos

Elección de un método para resolver un problema de mapeo de muchos a uno

Descripción del problema

Predecir una lista de valores asociados a un conjunto de variables.

Juego de trenes

Trainset tiene un conjunto de variables X1, X2, X3, ... Xn. En la forma más simple, cada variable es de tipo numérico con diferentes rangos. El mayor rango es 1-100000 y el menor 1-10. El objetivo es una lista de números (Y) cuyo rango es de nuevo 1-100000. La lista es de longitud variable por lo que cada observación tiene un número variable de objetivos. Podríamos suponer que la lista de objetivos es una lista de IDs de artículos.

Ejemplo de subconjunto de trenes (X1, X2, X3... Xn => {Y})

Observación1: 2345, 23, 8, ... 99399 => {2345, 98755}

Observación2: 45276, 3, 1, ... 80001 => {7865, 98675, 78954}

y así sucesivamente...

Predicción

Así pues, la predicción es una lista de números que puede variar en función de los valores de las variables.

Mis pensamientos


  1. Parece un problema de clasificación multietiqueta en el que cada etiqueta corresponde a un único valor de la lista de predicción.

  2. Pero como el rango de las etiquetas es grande (es decir, 1-100000), no se puede utilizar un método de clasificación.

  3. Probablemente se puede utilizar el método de regresión multiobjetivo para predecir una lista de objetivos para una observación en el conjunto de pruebas.

  4. Suponiendo que Ym es la longitud máxima de la lista de predicción en el conjunto de entrenamiento. Podría llenar la lista de predicción en la Observación1 del conjunto de entrenamiento como:

    Observación1: 2345, 23, 8, ... 99399 => {2345, 98755, 0 , ... 0} (el 0 representa un valor vacío que se repite Ym-2 veces)

  5. Podría valer la pena normalizar todas las variables y valores de la lista de predicción.

Preguntas

  1. ¿Me falta algo? ¿Es este método apropiado para este tipo de problema?
  2. Los valores de la lista de predicción son identificadores, por lo que no tienen una correlación directa con otros valores y variables de la observación. Y esta es una preocupación que me inquieta. ¿Será una preocupación importante si utilizo una regresión multiobjetivo?
  3. ¿Qué tipo de métodos puedo utilizar? ¿Red neuronal o regresión lineal?
  4. Dado que el conjunto completo de objetivos se conoce durante el entrenamiento, ¿podría utilizarse un método de agrupación, ya que estoy tratando de predecir un grupo de elementos que corresponden a una observación?

0 votos

No soy un experto en redes neuronales artificiales (RNA), pero tengo el presentimiento de que una RNA sería el camino a seguir en este caso (un "mapeo" de regresión de múltiples variables de entrada a múltiples variables de salida). Creo que los puntos 4 y 5 son bastante sensatos. Podría ser útil añadir la etiqueta RNA a la pregunta para llamar la atención del público adecuado.

0 votos

Lo de la dimensión variable es... Desordenado. ¿Estás absolutamente seguro de que has formulado el problema correctamente?

0 votos

@ssdecontrol: Si te refieres a múltiples objetivos para cada observación cuando dices "dimensión variable" entonces estoy bastante seguro de que he formulado el problema correctamente.

1voto

trish Puntos 31

Un posible enfoque es suponer que, en función de las características de un dispositivo, cada cookie aparece de forma independiente. En ese caso, se puede ajustar un SVM o un árbol de decisión o algún otro clasificador (no recomiendo la regresión logística para la clasificación), siendo la aparición de cada cookie un resultado binario. Esto significa que usted tiene un modelo para cada galleta. Sí, esto significa que usted está entrenando 100.000 clasificadores separados, cada uno en quién sabe cuántos puntos de datos. Pero el marco teórico es sencillo y el reto computacional no es insuperable

0 votos

En realidad, este es un enfoque interesante pero me preocupa el reto computacional cuando el #cookies aumenta. Mi ejemplo tiene sólo 100.000 galletas, pero en realidad las #galletas son enormes, lo que podría hacer que sea computacionalmente impracticable.

0 votos

@iceBreak tienes razón, por eso dudé en publicar esto. Pero dependerá de lo grande que sea realmente "humongous", y de lo rápido que se pueda entrenar su clasificador

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X