En todos los debates sobre el aprendizaje automático, se utiliza el término "modelo" para describir cómo se realiza la predicción. ¿Se refiere este "modelo" al algoritmo de aprendizaje utilizado? ¿Qué es exactamente un modelo?
Respuestas
¿Demasiados anuncios?Piense en el aprendizaje automático como una fórmula de aprendizaje para una tarea (por ejemplo, hacer una predicción). El modelo es entonces la fórmula única. El algoritmo de aprendizaje es el procedimiento por el que se llega a la fórmula correcta.
Si estás construyendo un modelo de aprendizaje automático de la forma (regresión lineal),
Y = a 0 * x 0 + a 1 * x 1 + ... + a n * x n
Entonces la fórmula lineal anterior tiene parámetros libres a 0 .. a n . Para un valor fijo de todos los parámetros, se tiene una fórmula única. Esta fórmula/ecuación única es la modelo . El modelo es algo que se puede guardar y utilizar para hacer predicciones sobre nuevas entradas.
El término "modelo" se utiliza generalmente en una de las dos formas ligeramente diferentes.
Puede referirse a un modelo estadístico . Formalmente, se trata de un conjunto de distribuciones de probabilidad. Un "algoritmo de aprendizaje" intenta encontrar una distribución de este conjunto que se ajuste mejor a los datos. Existen diferentes tipos de modelos estadísticos. Modelos lineales y la mayoría de las redes neuronales corresponden a modelos paramétricos . Aquí, cada elemento del conjunto se identifica con un vector de parámetros.
$$\mathcal{P} = \{ p_\theta : \theta \in \Theta \}$$
Un modelo de regresión lineal podría escribirse como
$$\mathcal{P} = \{ \mathcal{N}(y; \mathbf{a}^\top \mathbf{x} + b, 1) : \mathbf{a} \in \mathbb{R}^n, b \in \mathbb{R}\}.$$
En las redes neuronales, la arquitectura de la red define el conjunto de distribuciones posibles, y los pesos y sesgos identifican las distribuciones de ese conjunto.
Otros tipos de modelos estadísticos son modelos gráficos en la que la familia de distribuciones está determinada por un gráfico, o modelos no paramétricos en el que el número de parámetros no es fijo.
El otro uso de "modelo" en el aprendizaje automático es para referirse a una instancia particular de un modelo estadístico. Es decir, en lugar de $\mathcal{P}$ El término "modelo" puede referirse a un $p_\theta$ donde $\theta$ puede ser el vector de parámetros encontrado por un algoritmo de aprendizaje.
También es habitual utilizar términos para describir una combinación de modelos y algoritmos. Por ejemplo, el término "regresión lineal" suele entenderse como la estimación de máxima verosimilitud en el modelo lineal. Otro ejemplo sería autocodificadores variacionales que se refiere a la inferencia variacional en ciertos modelos generativos basados en redes neuronales.