Esta pregunta podría ser un poco demasiado sobre aprendizaje automático, pero creo que es una pregunta apropiada para esta comunidad.
Digamos que tengo un conjunto $\mathcal X$ que contiene instancias, vectores de características de longitud $n$. Supongamos que tengo un conjunto $\mathcal Y$ que representa variables objetivo (y para abreviar, asumamos que son clasificables con $\mathcal Y = \{0,1\}$). Busco encontrar la asignación correcta $f$ tal que $\forall x_i \in \mathcal X, f(x_i) = y_i$.
Supongamos que tengo una asignación de hipótesis $h : \mathcal X \to \mathcal Y$. En cuanto a encontrar $f$ de manera práctica, tendría que:
-
Definir una función de error y minimizarla con respecto a las entradas de $h$.
-
Ajustar los elementos $\mathcal X$ con los parámetros que minimizan la función de costo para encontrar los parámetros exactos (la minimización de la función de error si se calcula a través de medios numéricos como el descenso de gradiente no será perfecta pero lo suficientemente cercana para aproximar usando una función de ajuste de curva como la función
curve_fit
de scipy.
Imagino que tiene sentido relacionar $f$ con $h$ por $f(x) = h(x) + \epsilon$, donde $\epsilon$ es el error de $h$. Entonces, ¿por qué no puedo definir mi función de error de la siguiente manera, con valores de entrenamiento $f(x_i) = y_i$...
$$\text{función de error} = y_i - \epsilon$$
Esto parece lo suficientemente razonable. En cambio, parece que usamos cosas como el error cuadrático medio en su lugar. ¿Por qué es necesario?
Otras preguntas:
-
Además, ¿puedo escribir $h$ como $h(x)$ o debo escribirla como $h(x_1,x_2,..,x_n)$ dado que mis vectores tienen longitud $n$? I
-
¿El error cuadrático medio es la suma sobre la longitud del conjunto de entrenamiento o la longitud de todos los datos?
-
¿Qué sucede si la función de error no tiene un mínimo? ¿Qué pasa si tiene más de uno?