En primer lugar, perdón si la pregunta es confusa, era difícil formularla sin explicar bien lo que quiero conseguir. Para que el enunciado del problema sea más comprensible, me he inventado el siguiente escenario (por favor, tened paciencia conmigo):
Trabajo en una fábrica que hace magdalenas por lotes. Reciben la masa de un proveedor, pero debido a las variaciones, a veces le faltan algunos ingredientes. El panadero principal debe añadir o quitar ingredientes de la mezcla para garantizar el mejor sabor y calidad.
Se toma y analiza una muestra de cada lote de magdalenas. Los resultados proporcionan un desglose de los ingredientes que contiene la magdalena de muestra. Supongamos que, para un lote de magdalenas de chocolate, los resultados de la magdalena de muestra son los siguientes:
- Azúcar: 40 g
- Chispas de chocolate: 10g
- Mantequilla de cacahuete: 0g
- Cacao en polvo: 5 g
- Harina: 80 g
- Otros: 5g
Para cada uno de estos ingredientes/"características", hay un valor ideal que debe tener. En esta muestra, no hay suficientes pepitas de chocolate; está 5 g por encima del peso ideal (es decir, debería haber 15 g de pepitas de chocolate). El panadero jefe decide añadir 1 kg de pepitas de chocolate a la siguiente hornada de magdalenas de chocolate, dejando el resto de ingredientes igual, ya que están en su peso ideal. Ahora, en el siguiente lote, debido al ajuste del panadero, los resultados obtenidos para la muestra son los siguientes:
- Azúcar: 41 g
- Chispas de chocolate: 17g
- Mantequilla de cacahuete: 0g
- Cacao en polvo: 5 g
- Harina: 78 g
- Otros: 5g
Así pues, el panadero ajusta los ingredientes cuando es necesario para obtener la magdalena ideal. Se asegura de anotar todos los cambios que hace. Los resultados de cada lote también se registran en algún sitio.
Ahora el objetivo: Quiero predecir qué proporción de nuestros propios ingredientes añadir para obtener la mejor mezcla posible de magdalenas.
En resumen, los datos de entrada son los siguientes:
(Ingredients before lead-baker adjustment)
- Datetime: 202001010900
- Sugar: 40g
- Chocolate chips: 10g
- Peanut Butter: 0g
- Cocoa Powder: 5g
- Flour: 80g
- Other: 5g
(Lead-baker adjustment)
- Datetime: 202001011000
- Chocolate: 1 kg
(Ingredients after most recent lead-baker adjustment)
- Datetime: 202001011100
- Sugar: 41g
- Chocolate chips: 17g
- Peanut Butter: 0g
- Cocoa Powder: 5g
- Flour: 78g
- Other: 5g
(Lead-baker adjustment)
- Datetime: 202001011200
- Sugar: -100 g
+++Cientos de entradas similares.
Tras aprender el efecto de varios ajustes, el algoritmo debería haber predicho que, en el primer ejemplo, el mejor ajuste a realizar habría sido añadir 800 g de chocolate a la mezcla (lo que en teoría nos daría el valor ideal de 15 g de pepitas de chocolate por cada magdalena).
¿Qué algoritmo de ML puede lograrlo realmente? He trabajado en algunos problemas de ML/Aprendizaje profundo, pero ninguno de ellos es como este, en el que tenemos datos sin etiquetar, queremos determinar una relación entre las características y predecir los valores de las características como salida. He intentado repasar muchos más ejemplos, pero ninguno parece ajustarse remotamente a un tipo de problema como este.