Acabo de empezar a estudiar acerca de las estadísticas y los modelos cosas. Actualmente, mi entendimiento es que usamos el MLE para estimar el parámetro adecuado(s) para un modelo. Sin embargo, cuando trato de entender cómo las redes neuronales de trabajo, parece que comúnmente utilizar otro método para estimar los parámetros en su lugar. ¿Por qué no usar el MLE o es posible el uso de MLE?
Respuestas
¿Demasiados anuncios?MLE las estimaciones de la red neuronal artificial pesos (ANN) son, sin duda, posible. El uso estándar de la R nnet
paquete utiliza el MLE para ajustar el modelo, por ejemplo. Pero hay algunos problemas con el uso de la MLE en su propio. Para problemas de clasificación, un estándar de la función objetivo es la cruz de la entropía, que es la misma que la negativa de la log-verosimilitud de un modelo binomial. Para problemas de regresión, residual de cuadrados de error se utiliza, que es paralelo a la MLE de regresión OLS.
- Hay un problema general con ANN estimación: hay muchas soluciones simétricas incluso de una sola capa de Rna. revertir los signos de los pesos de la capa oculta, y revertir los signos de la capa oculta de la activación de los parámetros de ambos tienen la misma probabilidad. Además, puede permutar cualquiera de los nodos ocultos y estas permutaciones también tienen la misma probabilidad. En la práctica, se puede observar que estas soluciones son sólo reflexiones y/o permutaciones de simpatia.
- Las redes neuronales tienden a overfit los datos cuando se utiliza un sin restricciones de la solución. Los pesos se tienden a carrera lejos de la origen inverosímil grandes valores que no hay que generalizar bien o predecir nuevos datos con mayor precisión. La imposición de peso caries u otros métodos de regularización tiene el efecto de la reducción del peso de las estimaciones hacia el cero. Esto no necesariamente resolver la indeterminación cuestión de (1), pero puede mejorar la generalización de la red.
- La función de pérdida es nonconvex y optimización puede encontrar localmente óptimas soluciones que no son globalmente óptima. O tal vez estas soluciones son puntos de silla, donde algunos de los métodos de optimización de puesto. Los resultados en este documento encontramos con que los modernos métodos de estimación de eludir este problema.
En problemas de clasificación, la maximización de la probabilidad es la forma más común para entrenar una red neuronal (ambas supervisadas y no supervisadas modelos).
En la práctica, se suele minimizar el negativo de la log-verosimilitud (equivalente MLE). La única restricción para el uso de la negativa de la log-verosimilitud es tener una capa de salida que puede ser interpretado como una distribución de probabilidad. Un softmax de la capa de salida se utiliza comúnmente para hacerlo. Tenga en cuenta que en la neuro-redes de la comunidad, la negativa de la log-verosimilitud es a veces referida como la cruz de la entropía. La regularización de las condiciones puede ser añadido (y, a veces, puede ser interpretado como antes de las distribuciones de los parámetros, en ese caso estamos buscando el máximo a posteriori (MAP)).