Cuando se entrena un autoencoder en datos continuos (es decir, no binarios), casi todos los artículos/ implementaciones que he visto minimizan el error de reconstrucción $L_2$ entre el vector de características $\mathbf{x}$ y la representación escasa decodificada $\hat{\mathbf{x}}$, es decir, $\mathcal L = \sqrt{||\mathbf{x} - \hat{\mathbf{x}}||^2}$ (aunque usualmente sin la raíz cuadrada para que sea diferenciable en todos lados). Recientemente leí On the Surprising Behavior of Distance Metrics in High Dimensional Space, que parece sugerir que para dimensiones altas (los autores usan ~ 20), la métrica de distancia euclidiana no proporciona una medida razonable de cercanía. En resumen, los autores afirman (sección 2, primer párrafo):
...la diferencia entre las distancias máximas y mínimas a un punto de consulta dado no aumenta tan rápido como la distancia más cercana a cualquier punto en el espacio de alta dimensión. Esto hace que una consulta de proximidad sea insignificante e inestable porque hay una pobre discriminación entre el vecino más cercano y el más lejano.
Aunque principalmente discuten este resultado en el contexto de medir un vecino más cercano en un espacio de alta dimensión, salté a sus implicaciones para los autoencoders.
Una búsqueda breve no me mostró artículos o estudios en los que los autoencoders fueran entrenados con algo diferente al error de reconstrucción $L_2$, en lugar de una pérdida $L_k$ genérica (es decir, $k=1, 1/2, \dots$). ¿Se han considerado antes los errores de reconstrucción $L_k$ para autoencoders (supongo que sí)? Y, dadas los resultados del artículo citado anteriormente, ¿por qué no se utilizan diferentes métricas (además de solo "tradición")?
Actualización: En el artículo Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion, los autores demuestran que minimizar la pérdida $L_2$ equivale a maximizar la información mutua entre las entradas reconstruidas y las originales. Esta es una justificación teórica razonable para el uso de la métrica $L_2$ sobre otras.