1 votos

¿Cuándo puede interpretarse la salida activada por el sigmoide de una red neuronal como una probabilidad?

He creado una red neuronal cuya capa final emite un único valor sigmoide activado. He entrenado la red con datos etiquetados en binario (es decir, datos etiquetados con 0 para la clase negativa o con 1 para la clase positiva). Normalmente, al predecir la clase de unos datos no etiquetados, asumiría que son de clase positiva si la salida de la red para esos datos está por encima de algún límite (digamos, 0,5) y de clase negativa en caso contrario. Sin embargo, quiero saber si puedo interpretar correctamente la salida de dicha red como una probabilidad que una muestra dada es de clase positiva.

Dado que la función sigmoidea - concretamente, en este caso, la función logística $$\frac{1}{1 + e^{-x}}$$ -- tiene alcance $[0, 1]$ parece razonable interpretar sus resultados como probabilidades, y he visto algunas fuentes que me llevan a pensar que esta es de hecho una interpretación válida (por ejemplo este puesto ), aunque no estoy seguro de por qué, matemáticamente, este sería el caso y bajo qué condiciones se mantendría.

2voto

MachineLearner Puntos 342

La regresión logística no da una probabilidad real, sino que es una medida de la confianza del modelo (no en el sentido del intervalo de confianza estadístico). Para entender la diferencia entre confianza y probabilidad, imagine que ha entrenado una regresión logística como clasificador para predecir si una imagen muestra una carretera nevada o seca. Supongamos que utilizamos el valor medio de los píxeles y que somos capaces de discriminar entre carreteras nevadas y secas. Ahora, tomamos una nueva imagen que muestra un suelo de madera. Calculamos el valor medio de los píxeles y lo introducimos en la regresión logística. Como el valor medio de los píxeles estará en algún lugar entre la carretera nevada y la carretera seca, la regresión logística nos dará algún valor de la magnitud de $\approx 0.5$ . Por lo tanto, si interpretamos este resultado como probabilidad, esto significaría que la regresión logística piensa que las posibilidades son $50-50$ para la carretera seca frente a la carretera nevada. Pero sabemos que esto no tiene sentido. Pero no es una sorpresa porque la regresión logística sólo nos da la confianza del modelo, no la probabilidad. Por eso la regresión logística se llama modelo discriminativo.

A diferencia de los modelos discriminativos, otros modelos como los modelos probabilísticos generativos tratan de modelar la distribución (a menudo una distribución normal) del valor medio de los píxeles para las clases $\mathcal{C}_1$ para carretera seca y $\mathcal{C}_2$ por la carretera nevada. Si utilizamos este procedimiento veremos que obtenemos dos distribuciones de los valores medios de los píxeles $x$ . La siguiente figura muestra las dos distribuciones. Si las distribuciones están muy bien separadas (no hay mucho solapamiento), un nuevo valor del valor medio del píxel $x$ resultará en una baja probabilidad para ambas clases (por ejemplo, imagine que el valor medio de los píxeles del suelo de madera está en la intersección de ambas distribuciones).

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X