Estoy estudiando aprendizaje automático y me encontré con una pregunta desafiante.
La respuesta es 2. ¿Pero por qué el 2 es correcto? ¿Es correcta por el término de regularización?
Como los datos son linealmente separables, se pueden hacer otras funciones de pérdida $0$ mediante una elección adecuada de los pesos, $w$ . Sin embargo, la segunda tiene un término de regularización, por lo que la función de pérdida no sólo favorece la separabilidad lineal, sino también la norma de los pesos.
Notas: Dada una función de pérdida, supuse que el optimizador elegido con la condición inicial encontraría el punto óptimo para esa pérdida. Así, optimizará $L_2$ también (es decir $L_2$ alcanzará su mínimo). Aunque normalmente no es buena idea comparar los valores de las funciones de pérdida, ya que las expresiones son diferentes, $L_2$ siempre será $\geq L_i$ para otros $i$ ya que se pueden hacer otras funciones de pérdida $0$ pero $L_2$ probablemente no lo sea. Si la optimalidad se mide en función de la separabilidad del conjunto de datos, es decir, un $w$ que separa el conjunto de datos se llama óptima y otra que no lo hace no, $L_2$ también será probablemente menos óptimo porque no se garantiza la separación del conjunto de datos.
Sus datos son linealmente separables, esto significa que todo clasificador lineal hará una separación precisa de los datos. Una regresión lineal es un clasificador lineal, es decir, utiliza una línea para separar los datos. Por lo tanto, tanto si se utiliza una regresión lineal sin penalización como una regresión lineal con penalización, los datos se separarán correctamente.
Sin embargo, lo que significa una penalización es que tendrá un término adicional en su función de pérdida.
Por lo tanto, una función de pérdida $L$ será $L^{'} = L+\frac{1}{2}f(w)$ en caso de sanción, cuando $f(w)$ puede ser la norma que prefieras.
Por lo tanto, usted tendrá que $L^{'} > L$ . Pero como dijimos ambos clasificadores lineales separan los datos con precisión (el que corresponde a $L^{'}$ y la que corresponde a $L$ ) pero sabemos que $L^{'}$ es menos óptimo, en el sentido de que es mayor que el $L$ .
Sin embargo, no estoy muy seguro de que ese sea el significado de optimalidad al que te refieres. Espero que eso ayude.
Un poco más de discusión, para las funciones de pérdida exactas que tienes:
Una clasificación correcta significa que $y_{i}>0$ y $w^{T}x>0$ o $y_{i}<0$ y $w^{T}x<0$ . En ambos casos el $max(0,-y_{i}w^{T}x)=0$ porque no hay que minimizar algo en las clasificaciones correctas. Así, como sus datos son linealmente separables, el $L_{1}(w)=0$ .
si $y_{i}w^{T}x>0$ entonces $u=0$ y si $y_{i}w^{T}x<0$ entonces $u=1$ es decir, para las clasificaciones erróneas la función de pérdida se incrementa. Una vez más, como los datos son linealmente separables, no habrá clasificaciones erróneas, por lo que la $L_{3}(w)=0$
Similar para el $L_{4}(w)=0$
Por último, para el $L_{2}(w)$ El término $C\sum_{i=1}^{n}max(0,-y_{i}w^{T}x)$ es igual a cero antes de $C$ llegando al infinito, porque la suma es cero debido a la separabilidad lineal. Por lo tanto, la $L_{2}(w)$ se queda con el término de penalización, y ese término de penalización no puede ser cero, porque entonces todos sus pesos serán cero, por lo que estará lleno de clasificaciones erróneas. Por lo tanto, con eso en mente $L_{2}(w)>0$ .
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.