39 votos

¿Cómo determinar la confianza de una predicción de una red neuronal?

Para ilustrar mi pregunta, supongamos que tengo un conjunto de entrenamiento en el que la entrada tiene un grado de ruido pero la salida no, por ejemplo;

# Training data
[1.02, 1.95, 2.01, 3.06] : [1.0]
[2.03, 4.11, 5.92, 8.00] : [2.0]
[10.01, 11.02, 11.96, 12.04] : [1.0]
[2.99, 6.06, 9.01, 12.10] : [3.0]

aquí la salida es el gradiente de la matriz de entrada si fuera sin ruido (no el gradiente real).

Después de entrenar la red, la salida debería ser algo así para una entrada dada.

# Expected Output
[1.01, 1.96, 2.00, 3.06] : 95% confidence interval of [0.97, 1.03]
[2.03, 4.11, 3.89, 3.51] : 95% confidence interval of [2.30, 4.12]

Mi pregunta es cómo se puede crear una red neuronal que devuelva un valor predicho y una medida de confianza, como una varianza o un intervalo de confianza.

0voto

Angus Peters Puntos 6

No hay manera, todos los modelos de ML no es acerca de la comprensión fenomenal, es métodos de interpolación con la esperanza "que funciona". Empezar con tales preguntas confianza, robustnes al ruido no hay respuestas.

Así que para derivar algo, por favor, utilice varias ciencias aplicadas y fundamentales:

  • Utilizar el control (y hacer suposiciones sobre la dinámica)

  • Utilizar la optimización convexa (con alguna condición extra en la función)

  • Utilizar la estadística matemática (con hipótesis preliminares sobre las distribuciones)

  • Utilizar el procesamiento de la señal (con algunas suposiciones de que la señal es de banda limitada)

Los científicos utilizan algunas suposiciones preliminares (llamadas axiomas) para deducir algo.

No hay manera de dar ninguna confianza sin alguna suposición preliminar, así que el problema no está en el método de DL, sino que es un problema en cualquier método que intente interpolar sin ninguna suposición preliminar - no hay manera de derivar mediante el álgebra algo inteligente sin una suposición.

La NN y los diversos métodos de ML sirven para crear rápidamente un prototipo de "algo" que parece funcionar "de alguna manera" comprobado con validación cruzada.

Aún más profundo, el ajuste de la regresión E[Y|X] o su estimación puede ser un problema absolutamente incorrecto de resolver (tal vez la f.d.p. en el punto Y=E[Y|X] tiene un mínimo, no un máximo), y hay un montón de cosas tan sutiles.

También permítanme recordar dos problemas irresolubles en AI/ML, que por algunas razones pueden ser olvidados, detrás de eslóganes de belleza:

(1) Son métodos de interpolación, no de extrapolación: no tiene capacidad para tratar nuevos problemas

(2) nadie sabe cómo se comportará un modelo con datos que no proceden de la misma distribución (hombre disfrazado de plátano para la localización de peatones)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X