¿Por qué usar la distancia $L_2$ como error de reconstrucción para un autoencoder en lugar de $L_k$?

Question

¿Por qué usar la distancia $L_2$ como error de reconstrucción para un autoencoder en lugar de $L_k$?

Preguntado el 8 de Noviembre, 2017: Cuando se hizo la pregunta
3199 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Cuando se entrena un autoencoder en datos continuos (es decir, no binarios), casi todos los artículos/ implementaciones que he visto minimizan el error de reconstrucción $L_2$ entre el vector de características $\mathbf{x}$ y la representación escasa decodificada $\hat{\mathbf{x}}$, es decir, $\mathcal L = \sqrt{||\mathbf{x} - \hat{\mathbf{x}}||^2}$ (aunque usualmente sin la raíz cuadrada para que sea diferenciable en todos lados). Recientemente leí On the Surprising Behavior of Distance Metrics in High Dimensional Space, que parece sugerir que para dimensiones altas (los autores usan ~ 20), la métrica de distancia euclidiana no proporciona una medida razonable de cercanía. En resumen, los autores afirman (sección 2, primer párrafo):

...la diferencia entre las distancias máximas y mínimas a un punto de consulta dado no aumenta tan rápido como la distancia más cercana a cualquier punto en el espacio de alta dimensión. Esto hace que una consulta de proximidad sea insignificante e inestable porque hay una pobre discriminación entre el vecino más cercano y el más lejano.

Aunque principalmente discuten este resultado en el contexto de medir un vecino más cercano en un espacio de alta dimensión, salté a sus implicaciones para los autoencoders.

Una búsqueda breve no me mostró artículos o estudios en los que los autoencoders fueran entrenados con algo diferente al error de reconstrucción $L_2$, en lugar de una pérdida $L_k$ genérica (es decir, $k=1, 1/2, \dots$). ¿Se han considerado antes los errores de reconstrucción $L_k$ para autoencoders (supongo que sí)? Y, dadas los resultados del artículo citado anteriormente, ¿por qué no se utilizan diferentes métricas (además de solo "tradición")?

Actualización: En el artículo Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion, los autores demuestran que minimizar la pérdida $L_2$ equivale a maximizar la información mutua entre las entradas reconstruidas y las originales. Esta es una justificación teórica razonable para el uso de la métrica $L_2$ sobre otras.

Preguntado el 8 de Noviembre, 2017 por idz

Answer 1

1 Respuestas

Answer 2

1voto

Bill Puntos 21

Los autoencoders se pueden considerar en el marco de [Autoencoders Variacionales][1] (VAEs), los cuales generalizan de manera efectiva los autoencoders determinísticos, donde:

cada muestra de datos $x$ se mapea a una distribución $q(z|x)$ en el espacio latente, en lugar de a un valor único de $z$ (como lo hace una función determinística de encoder)
de manera similar, cada representación latente $z$ se mapea a una distribución en el espacio de datos $p(x|z)$, por ejemplo, una pequeña distribución Gaussiana alrededor de una media aprendida;
las variables latentes se ajustan a una distribución previa $p(z)$

El punto de considerar los VAEs es que aprenden un modelo adecuado de variables latentes donde los términos de la función de pérdida tienen una interpretación significativa.

El autoencoder determinístico se puede ver como un caso especial del marco VAE donde:

la varianza de $q(z|x)$ se reduce hacia 0, de modo que $q(z|x)$ tiende/converge a una función determinística de $x$ en el límite;
la pérdida cuadrática media ($L_2$) (mencionada en la pregunta) se relaciona con el término de reconstrucción de la función de pérdida de VAE y es equivalente a asumir que $p(x|z)$ es Gaussiana cuya media se aprende como una función de $z$; y
el segundo término de KL o de regularización de la pérdida de VAE, que incluye la distribución previa sobre $z$, se elimina (así que no se impone ninguna estructura asumida en el espacio latente).

La elección de la distribución para $p(x|z)$ puede variar, lo que corresponde a diferentes métricas en el espacio de $x$ (por ejemplo, $L_1$ equivalente a Laplaciano, etc).

Respondido el 4 de Abril, 2023 por Bill (21 Puntos )

¿Por qué usar la distancia $L_2$ como error de reconstrucción para un autoencoder en lugar de $L_k$?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué usar la distancia $L_2$ como error de reconstrucción para un autoencoder en lugar de $L_k$?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: