34 votos

Aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo: Fundamentos del flujo de trabajo

Aprendizaje supervisado

  • 1) Un humano construye un clasificador basado en entrada y salida datos
  • 2) Ese clasificador se entrena con un conjunto de datos de entrenamiento
  • 3) Ese clasificador se prueba con un conjunto de datos de prueba
  • 4) Despliegue si el salida es satisfactorio

Se utiliza cuando: "Sé cómo clasificar estos datos, sólo necesito que tú (el clasificador) los clasifiques".

Punto de método: Clasificar etiquetas o producir números reales

Aprendizaje no supervisado

  • 1) Un humano construye un algoritmo basado en entrada datos
  • 2) Ese algoritmo se prueba con un conjunto de datos de prueba (en el que el algoritmo crea el clasificador)
  • 3) Despliegue si el clasificador es satisfactorio

Se utiliza cuando: "No tengo ni idea de cómo clasificar estos datos, ¿puedes (el algoritmo) crear un clasificador por mí?"

Punto del método: Clasificar etiquetas o predecir (PDF)

Aprendizaje por refuerzo

  • 1) Un humano construye un algoritmo basado en entrada datos
  • 2) Ese algoritmo presenta una estado depende de la entrada datos en los que un usuario premia o castiga al algoritmo a través de la acción el algoritmo tomó, esto continúa con el tiempo
  • 3) Ese algoritmo aprende de la recompensa/castigo y se actualiza, esto continúa
  • 4) Siempre está en producción, necesita aprender datos reales para poder presentar acciones de estados

Se utiliza cuando: "No tengo ni idea de cómo clasificar estos datos, ¿puedes clasificar estos datos y te daré una recompensa si es correcto o te castigaré si no lo es?".

Es este el tipo de flujo de estas prácticas, escucho mucho sobre lo que hacen, pero el práctico y ejemplar la información es terriblemente ¡poco!

4voto

alpheus Puntos 45

Descargo de responsabilidad: no soy ningún experto e incluso nunca he hecho algo con aprendizaje por refuerzo (todavía), así que cualquier comentario será bienvenido...

Aquí hay una respuesta que añade algunas pequeñas notas matemáticas a su lista y algunas ideas diferentes sobre cuándo usar qué. Espero que la enumeración sea lo suficientemente autoexplicativa:

Supervisado

  1. Tenemos datos $\mathcal{D} = \{(\boldsymbol{x}_0,y_0), (\boldsymbol{x}_1,y_1), \ldots, (\boldsymbol{x}_n,y_n)\}$
  2. Buscamos un modelo $g$ que minimice alguna medida de pérdida/coste $L(y_i, g(\boldsymbol{x}_i))$ para todos los puntos $0 \leq i < l$
  3. Evaluamos el modelo calculando la pérdida/coste $L$ para el resto de los datos ( $l \leq i \leq n$ ) para tener una idea de lo bien que generaliza el modelo

Podemos dar ejemplos, pero no podemos dar un algoritmo para llegar de la entrada a la salida

Configuración para la clasificación y la regresión

No supervisado

  1. Tenemos datos $\mathcal{D} = \{\boldsymbol{x}_0, \boldsymbol{x}_1, \ldots, \boldsymbol{x}_n\}$
  2. Buscamos un modelo $g$ que nos da una idea de nuestros datos.
  3. No tenemos apenas medidas para decir si hemos hecho algo útil/interesante

Tenemos algunos datos, pero no tenemos ni idea de por dónde empezar a buscar cosas útiles/interesantes

Ajuste para la agrupación, la reducción de la dimensionalidad, la búsqueda de factores ocultos, los modelos generativos, etc.

Refuerzo

  1. No tenemos datos
  2. Construimos un modelo $g$ que genera datos $\boldsymbol{x}_i$ (a menudo llamadas acciones), que pueden basarse en mediciones y/o acciones anteriores, en un intento de maximizar alguna medida de recompensa $R(\boldsymbol{x}_i)$ que, por lo general, no es conocido por el modelo (también hay que aprenderlo).
  3. Evaluamos mediante la función de recompensa después de que haya tenido un tiempo de aprendizaje.

No tenemos ni idea de cómo hacer algo, pero podemos decir si se ha hecho bien o mal

Esto parece especialmente útil para las tareas de decisión secuencial.

Referencias:
Si, J., Barto, A., Powell, W. y Wunsch, D. (2004) Reinforcement Learning and Its Relationship to Supervised Learning (Aprendizaje por refuerzo y su relación con el aprendizaje supervisado), en Handbook of Learning and Approximate Dynamic Programming (Manual de aprendizaje y programación dinámica aproximada), John Wiley & Sons, Inc., Hoboken, NJ, USA. doi: 10.1002/9780470544785.ch2

3voto

Harry.P Puntos 13

Se trata de una introducción compacta y muy agradable a las ideas básicas.

Aprendizaje por refuerzo

Creo que la descripción de tu caso de uso del aprendizaje por refuerzo no es exactamente correcta. El término clasificar no es apropiado. Una mejor descripción sería:

No sé cómo actuar en este medio ambiente ¿se puede encontrar un buen comportamiento y mientras tanto te daré retroalimentación .

En otras palabras, el objetivo es más bien controlar algo bien, que a clasificar algo bien.

Entrada

  • El medio ambiente que se define por
    • todos los estados posibles
    • posibles acciones en los estados
  • El función de recompensa depende del estado y/o de la acción

Algoritmo

  • El agente
    • está en un estado
    • toma un acción para trasladarse a otro estado
    • recibe un recompensa para la acción en el estado

Salida

  • El agente quiere encontrar un óptimo política que maximiza la recompensa

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X