56 votos

¿Regresión lineal multivariante frente a red neuronal?

Parece que es posible obtener resultados similares a los de una red neuronal con una regresión lineal multivariante en algunos casos, y la regresión lineal multivariante es súper rápida y fácil.

¿En qué circunstancias las redes neuronales pueden dar mejores resultados que la regresión lineal multivariante?

31voto

icelava Puntos 548

En principio, las redes neuronales pueden modelar automáticamente las no linealidades (véase el teorema de aproximación universal ), que habría que modelar explícitamente mediante transformaciones (splines, etc.) en la regresión lineal.

La advertencia: la tentación de sobreajustar puede ser (incluso) más fuerte en las redes neuronales que en la regresión, ya que añadir capas ocultas o neuronas parece inofensivo. Así que hay que tener mucho cuidado con el rendimiento de la predicción fuera de la muestra.

0 votos

Ok. Supongo que una pregunta en mi mente es, ¿hasta qué punto puedo replicar un comportamiento similar aumentando mis datos de entrada con términos cuadráticos y cúbicos?

3 votos

En realidad, es probable que se puedan aproximar las NN con regresores adecuadamente transformados en una regresión lineal con la precisión que se desee (y viceversa). Sin embargo, una práctica mejor que los cuadráticos y los cúbicos son los splines; recomiendo encarecidamente el libro de texto de Harrell "Regression Modeling Strategies".

0 votos

Ok. ¿Es razonable asumir que el tiempo de entrenamiento será más rápido para la regresión lineal en datos transformados, o los tiempos de entrenamiento serán aproximadamente similares? ¿La solución para la regresión lineal sobre datos transformados tendrá un único máximo global, o tendrá muchos mínimos locales como para las redes neuronales? (Edición: Supongo que, independientemente de cómo se transformen las entradas, la solución de la regresión lineal es simplemente el pseudoinverso de la matriz de diseño multiplicado por algo y, por tanto, siempre es única o singular).

16voto

matt Puntos 11

Usted menciona la regresión lineal. Esto está relacionado con regresión logística que tiene un algoritmo de optimización rápido similar. Si tiene límites en los valores objetivo, como en un problema de clasificación, puede ver la regresión logística como una generalización de la regresión lineal.

Las redes neuronales son estrictamente más generales que la regresión logística sobre las entradas originales, ya que ésta corresponde a una red de capas saltadas (con conexiones que conectan directamente las entradas con las salidas) con $0$ nodos ocultos.

Cuando se añaden características como $x^3$ Esto es similar a la elección de los pesos de unos pocos nodos ocultos en una sola capa oculta. No hay exactamente una $1-1$ ya que para modelar una función como $x^3$ con sigmoides puede tomar más de una neurona oculta. Cuando se entrena una red neuronal, se deja que encuentre sus propios pesos ocultos de entrada, lo que tiene el potencial de ser mejor. También puede llevar más tiempo y puede ser inconsistente. Puede empezar con una aproximación a la regresión logística con características adicionales, y entrenar los pesos de entrada-ocultos lentamente, y esto debería hacerlo mejor que la regresión logística con características adicionales eventualmente. Dependiendo del problema, el tiempo de entrenamiento puede ser insignificante o prohibitivo.

Una estrategia intermedia consiste en elegir un gran número de nodos al azar, de forma similar a lo que ocurre cuando se inicializa una red neuronal, y fijar los pesos de entrada a los ocultos. La optimización sobre los pesos *-a-salida sigue siendo lineal. Esto se denomina máquina de aprendizaje extremo . Funciona al menos tan bien como la regresión logística original.

1 votos

"Una estrategia intermedia es elegir un gran número de nodos al azar, de forma similar a lo que ocurre cuando se inicializa una red neuronal, y fijar los pesos de entrada a salida. La optimización sobre los pesos *-a-salida se mantiene lineal". => ¿Quieres decir que en este caso habrá un único máximo global para la solución?

1 votos

Para una elección genérica de nodos ocultos al azar, sí.

2 votos

Gran post - proporcionando contexto para [LR, LogR, NN, ELM]. Tu comentario sobre que el LogR es un NN de capa de salto parece obvio después de ser señalado, pero es una buena percepción.

3voto

Erogol Puntos 379

La regresión lineal tiene como objetivo separar los datos que son linealmente separables, sí se pueden utilizar polinomios de tercer grado adicionales, pero de esa manera se indican de nuevo algunas suposiciones sobre los datos que se tienen, ya que se define la estructura de la función objetivo. En la red neuronal, generalmente tienes una capa de entrada que crea los separadores lineales para los datos que tienes y la capa oculta ANDs las regiones que limitan algunas clases y la última capa ORs todas estas regiones. De esta manera todos los datos que se tienen son capaces de ser clasificados de manera no lineal, también todo este proceso va con pesos aprendidos internamente y funciones definidas. Además, el aumento del número de características para la regresión lineal se opone a la "maldición de la dimensionalidad". Además, algunas aplicaciones necesitan resultados más probabilísticos que números constantes como salida. Por lo tanto, una NN con función logística será más adecuada para tales fines (por supuesto, también hay regresión logística que sufre de los hechos que dije).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X