4 votos

¿Qué capacidad tienen las redes neuronales? ¿Necesito hacer una selección de características?

Soy súper nuevo en redes neuronales y aprendizaje automático en general, así que tened paciencia conmigo. Supongo que mi pregunta es "¿Qué capacidad tienen las redes neuronales?". He trabajado con el ejemplo de entrenar una red para predecir si una imagen de 8x8 es un "4" o un "3". Actualmente, estoy introduciendo cada valor en mi red neuronal:

[
1,0,0,1,0,0,0,0,
1,0,0,1,0,0,0,0,
1,0,0,1,0,0,0,0,
1,1,1,1,1,1,0,0,
0,0,0,1,0,0,0,0,
0,0,0,1,0,0,0,0,
0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0
],

Es un poco difícil de ver, pero hay un "4" ahí. He entrenado con éxito mi red neuronal para reconocer los 4 frente a los 3 con bastante eficacia. Pero ahora estoy trabajando con algunos datos de aceleración para predecir diferentes movimientos.

He leído que una capa oculta múltiple permite emular funciones no lineales. Pero no recuerdo lo suficiente sobre álgebra lineal (por no hablar de álgebra no lineal) para que eso tenga mucho sentido para mí. Pero entonces empecé a oír hablar de la selección de características y, básicamente, de la creación de estadísticas resumidas sobre mis datos para utilizarlas como entradas en lugar de valores brutos. Entiendo la necesidad de hacer eso cuando se entra en conjuntos de datos más grandes donde se tendría una matriz de 80x80 en lugar de una de 8x8. Pero, ¿hay alguna razón para hacer la selección de características en conjuntos de datos más pequeños con el fin de dar a la red más información sobre los datos? ¿O la red es capaz de tener en cuenta básicamente todos los matices de los datos?

3voto

Quarantean Puntos 1

La respuesta a "qué capacidad tienen las redes neuronales" es, en pocas palabras, "mucha". Se ha demostrado que las redes neuronales pueden, dada una estructura suficiente, aproximar cualquier función no lineal (aproximación universal de funciones).

https://en.wikipedia.org/wiki/Universal_approximation_theorem

Esto dice que incluso una sola capa con suficientes neuronas puede representar cualquier función. Sin embargo, el número de neuronas necesarias en una sola capa puede ser muy grande, y técnicas como las redes convolucionales (CNN) favorecen tener múltiples (en algunos casos, docenas o cientos) capas en lugar de una sola capa oculta masiva.

Para su problema en particular, es lo suficientemente pequeño como para que pueda ser resuelto fácilmente por una red con una sola capa oculta totalmente conectada con unas pocas docenas de neuronas. Para la capa de salida, el enfoque típico sería softmax, con una neurona por cada dígito que se quiera reconocer. Para este enfoque (o para cualquier otro clasificador), es necesario introducir suficientes ejemplos de datos de entrenamiento (incluyendo traslaciones, escalados y rotaciones de los dígitos que se intentan clasificar, dependiendo de lo robusto que se quiera que sea el clasificador ante este tipo de permutaciones) para permitirle aprender una amplia gama de condiciones de datos.

La selección de características se ha utilizado históricamente para reducir eficazmente la dimensionalidad de la representación que se introduce en los clasificadores. Hay muchas técnicas que se han utilizado para encontrar una representación de baja dimensionalidad de los conjuntos de datos como precursora de las tareas de clasificación. Sin embargo, en los últimos años, las redes neuronales convolucionales con arquitecturas de aprendizaje profundo sin ninguna selección explícita de características han demostrado superar a la mayoría de los otros métodos para el reconocimiento de imágenes de última generación.

Esto no quiere decir que en casos concretos no se puedan encontrar técnicas específicas de extracción de características como precursoras de un clasificador de red neuronal más pequeño que funcione bastante bien para su problema, pero esto requiere un ajuste manual y un proceso de prueba y error para extraer representaciones adecuadas que apoyen la clasificación posterior. En cierto sentido, las arquitecturas CNN hacen lo mismo de forma automática: aprenden extracciones de características no lineales que apoyan mejor la clasificación en un espacio de baja dimensión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X