Trabajo en una startup como desarrollador, pero quería ayudar a nuestro equipo de ventas con la ejecución de algunos algoritmos de ML en los datos. Un poco de contexto: La mayor parte de nuestros ingresos provienen de la compra de anuncios, así que, en pocas palabras, tenemos un equipo de ventas que se acerca a nuestros clientes potenciales para venderles anuncios. Yo quería hacer este proceso más eficiente mediante la construcción de un motor de recomendación que haría predicciones sobre la probabilidad de que diferentes clientes potenciales compren nuestros anuncios.
Lo pensé de esta manera: Digamos que tenemos los siguientes datos de ventas anteriores: {(x 1 , y 1 ), ..., (x n , y n )}, donde x representa las oportunidades de venta e y es de un conjunto binario de {0,1}, donde 1 indica que la oportunidad se convirtió y 0 que no. Y cada cliente potencial tiene el siguiente vector de características para x i en R d : x i \= {x 1 , x 2 ,...,x d Ahora, cada vez que se nos da una nueva x k y queremos encontrar la correspondiente y k para ello.
Pensaba que es un problema clásico de aprendizaje supervisado y que podemos aplicar un enfoque discriminativo (por ejemplo, kNN, SVM, etc.) para resolverlo.
¿Le parece lógico hasta ahora o sugeriría un planteamiento completamente distinto? Un problema que personalmente tengo es que, bueno, tiene sentido que la y de nuestros datos sea binaria, ya que esos clientes potenciales se convierten o no. Sin embargo, creo que tiene más sentido producir valores probabilísticos de y en adelante, ya que sería más beneficioso para el equipo de ventas. Pero no sé cómo hacerlo, ya que de esta forma hay una clara división entre el formato de los valores pasados de y ({0,1}) y los futuros valores de y que estamos intentando predecir.