Me gusta mucho esta pregunta.
Lo primero que me viene a la mente es la división entre clasificadores lineales y no lineales. Tres clasificadores son lineales (svm lineal, perceptrón y regresión logística) y tres gráficos muestran un límite de decisión lineal ( A , B , C ). Empecemos por ahí.
Lineal
El trazado lineal más salliente es el trazado B porque tiene una línea con pendiente. Esto es impar para la regresión logística y svm porque pueden mejorar sus funciones de pérdida más por ser una línea plana (es decir, estar más lejos de (todos) los puntos). Así, plot B es el perceptrón. Como la salida del perceptrón es 0 ó 1, todas las soluciones que separan una clase de otra son igualmente buenas. Por eso no mejora más.
La diferencia entre la parcela _A) y C es más sutil. El límite de decisión es ligeramente inferior en la parcela A . Un SVM como un número fijo de vectores de soporte, mientras que la función de pérdida de regresión logística se determina todos los puntos. Dado que hay más cruces rojas que puntos azules, la regresión logística evita las cruces rojas más que los puntos azules. La SVM lineal sólo intenta alejarse tanto de los vectores de soporte rojos como de los azules. Por eso el gráfico A es el límite de decisión de la regresión logística y el gráfico C se realiza mediante una SVM lineal.
No lineal
Sigamos con los gráficos no lineales y los clasificadores. Estoy de acuerdo con su observación de que la trama F es probablemente el ReLu NN, ya que tiene los límites más nítidos. Una unidad ReLu porque se activa a la vez si la activación supera 0 y esto hace que la unidad de salida siga una línea lineal diferente. Si te fijas bien, puedes ver unos 8 cambios de dirección en la línea, así que probablemente 2 unidades tienen poco impacto en el resultado final. Así que traza F es el ReLu NN.
Sobre los dos últimos no estoy tan seguro. Tanto una NN tanh como la SVM polinomial kernelizada pueden tener múltiples límites. Parcela D está obviamente peor clasificado. Una NN tanh puede mejorar esta situación doblando las curvas de forma diferente y poniendo más puntos azules o rojos en la región exterior. Sin embargo, este gráfico es un poco extraño. Supongo que la parte superior izquierda está clasificada como roja y la parte inferior derecha como azul. Pero, ¿cómo se clasifica la parte central? Debería ser roja o azul, pero entonces uno de los límites de decisión no debería estar dibujado. Por lo tanto, la única opción posible es que las partes exteriores se clasifiquen como de un color y la parte interior como del otro. Eso es extraño y realmente malo. Así que no estoy seguro de esto.
Veamos la trama E . Tiene líneas curvas y rectas. Para una SVM kernelizada de grado 2 es difícil (casi imposible) tener un límite de decisión de línea recta, ya que la distancia al cuadrado favorece gradualmente a 1 de las 2 clases. Las funciones de activación tanh pueden saturarse de tal manera que el estado oculto se compone de 0 y 1. En el caso de que sólo 1 unidad cambie su estado a, por ejemplo, 0,5, se puede obtener un límite de decisión lineal. Así que yo diría que la trama E es un NN tanh y, por tanto, traza D es una SVM kernelizada. Sin embargo, es una pena para la pobre SVM.
Conclusiones
A - Regresión logística
B - Perceptrón
C - SVM lineal
D - SVM con núcleo (núcleo polinómico de orden 2)
E - Red neuronal (1 capa oculta con 10 unidades tanh)
F - Red neuronal (1 capa oculta con 10 unidades lineales rectificadas)