1 votos

¿Cómo utilizar el aprendizaje automático en datos no etiquetados para predecir características de entrada como salida?

En primer lugar, perdón si la pregunta es confusa, era difícil formularla sin explicar bien lo que quiero conseguir. Para que el enunciado del problema sea más comprensible, me he inventado el siguiente escenario (por favor, tened paciencia conmigo):

Trabajo en una fábrica que hace magdalenas por lotes. Reciben la masa de un proveedor, pero debido a las variaciones, a veces le faltan algunos ingredientes. El panadero principal debe añadir o quitar ingredientes de la mezcla para garantizar el mejor sabor y calidad.

Se toma y analiza una muestra de cada lote de magdalenas. Los resultados proporcionan un desglose de los ingredientes que contiene la magdalena de muestra. Supongamos que, para un lote de magdalenas de chocolate, los resultados de la magdalena de muestra son los siguientes:

  • Azúcar: 40 g
  • Chispas de chocolate: 10g
  • Mantequilla de cacahuete: 0g
  • Cacao en polvo: 5 g
  • Harina: 80 g
  • Otros: 5g

Para cada uno de estos ingredientes/"características", hay un valor ideal que debe tener. En esta muestra, no hay suficientes pepitas de chocolate; está 5 g por encima del peso ideal (es decir, debería haber 15 g de pepitas de chocolate). El panadero jefe decide añadir 1 kg de pepitas de chocolate a la siguiente hornada de magdalenas de chocolate, dejando el resto de ingredientes igual, ya que están en su peso ideal. Ahora, en el siguiente lote, debido al ajuste del panadero, los resultados obtenidos para la muestra son los siguientes:

  • Azúcar: 41 g
  • Chispas de chocolate: 17g
  • Mantequilla de cacahuete: 0g
  • Cacao en polvo: 5 g
  • Harina: 78 g
  • Otros: 5g

Así pues, el panadero ajusta los ingredientes cuando es necesario para obtener la magdalena ideal. Se asegura de anotar todos los cambios que hace. Los resultados de cada lote también se registran en algún sitio.

Ahora el objetivo: Quiero predecir qué proporción de nuestros propios ingredientes añadir para obtener la mejor mezcla posible de magdalenas.

En resumen, los datos de entrada son los siguientes:

(Ingredients before lead-baker adjustment)

 - Datetime: 202001010900
 - Sugar: 40g
 - Chocolate chips: 10g
 - Peanut Butter: 0g
 - Cocoa Powder: 5g
 - Flour: 80g
 - Other: 5g

(Lead-baker adjustment)

 - Datetime: 202001011000
 - Chocolate: 1 kg

(Ingredients after most recent lead-baker adjustment)

 - Datetime: 202001011100
 - Sugar: 41g
 - Chocolate chips: 17g
 - Peanut Butter: 0g
 - Cocoa Powder: 5g
 - Flour: 78g
 - Other: 5g

(Lead-baker adjustment)

 - Datetime: 202001011200 
 - Sugar: -100 g

+++Cientos de entradas similares.

Tras aprender el efecto de varios ajustes, el algoritmo debería haber predicho que, en el primer ejemplo, el mejor ajuste a realizar habría sido añadir 800 g de chocolate a la mezcla (lo que en teoría nos daría el valor ideal de 15 g de pepitas de chocolate por cada magdalena).

¿Qué algoritmo de ML puede lograrlo realmente? He trabajado en algunos problemas de ML/Aprendizaje profundo, pero ninguno de ellos es como este, en el que tenemos datos sin etiquetar, queremos determinar una relación entre las características y predecir los valores de las características como salida. He intentado repasar muchos más ejemplos, pero ninguno parece ajustarse remotamente a un tipo de problema como este.

0voto

gfs Puntos 11

Puede plantear su problema como un tarea de eliminación de ruido . Es decir, para una lista de entrada dada de cantidades de ingredientes "ruidosos", producir una lista de cantidades de ingredientes ajustadas. Yo procedería como sigue.

  • Hacer un conjunto de datos de lotes de ingredientes ajustados
  • Haga un conjunto de datos de lotes de ingredientes "ruidosos". Para ello, puede utilizar sus datos de lotes de ingredientes antes del ajuste por parte del panadero y aumentar este conjunto de datos añadiendo ruido aleatoriamente a los lotes de ingredientes ajustados.
  • Entrene su modelo en la predicción del lote ajustado dado un lote ruidoso correspondiente.

El autoencoder de eliminación de ruido es un modelo muy popular, especialmente en el procesamiento del lenguaje natural, para tareas como la autocorrección de errores ortográficos. Aunque el enunciado original de tu problema es una tarea de regresión, puedes convertirlo en un problema de clasificación agrupando las cantidades de ingredientes. He aquí un ejemplo de cómo hacerlo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X