26 votos

¿Por qué la regresión logística se denomina algoritmo de aprendizaje automático?

Si he entendido bien, en un algoritmo de aprendizaje automático, el modelo tiene que aprender de su experiencia, es decir, cuando el modelo da una predicción errónea para los nuevos casos, debe adaptarse a las nuevas observaciones y, con el tiempo, el modelo se vuelve cada vez mejor. No veo que la regresión logística tenga esta característica. Entonces, ¿por qué se sigue considerando un algoritmo de aprendizaje automático? ¿Cuál es la diferencia entre la regresión logística y la regresión normal en términos de "aprendizaje"?

Tengo la misma pregunta para los bosques aleatorios.

¿Y cuál es la definición de "aprendizaje automático"?

4voto

Mark L. Stone Puntos 2037

Por fin me he dado cuenta. Ahora sé la diferencia entre el ajuste de modelos estadísticos y el aprendizaje automático.

  • Si ajustas un modelo (regresión), eso es ajuste de modelo estadístico
  • Si aprendes un modelo (regresión), eso es aprendizaje automático

Así que si aprendes una regresión logística, eso es un algoritmo de aprendizaje automático.

Comentario: Perdonadme por ser un vejestorio, pero siempre que oigo hablar de aprender un modelo, o de aprender una regresión, me hace pensar en Jethro "I done me learned an education".

FIN DEL TEMA

3voto

Rob Allen Puntos 486

El aprendizaje automático tiene una definición bastante imprecisa y tienes razón al pensar que los modelos de regresión -y no sólo los de regresión logística- también "aprenden" de los datos. No estoy seguro de si esto significa que el aprendizaje automático es realmente estadística o que la estadística es realmente aprendizaje automático, o si algo de esto importa.

Sin embargo, no creo que sea necesario que un algoritmo repetidamente aprender de sus errores. La mayoría de los métodos utilizan un conjunto de entrenamiento para calcular algunos parámetros y luego utilizan estos parámetros fijos para hacer predicciones sobre algunos datos de prueba adicionales. El proceso de entrenamiento puede implicar la actualización repetida de los parámetros (como en la retropropagación), pero no necesariamente ( $k$ -(los vecinos más cercanos no hacen nada durante el entrenamiento). En cualquier caso, en el momento de la prueba, es posible que ni siquiera tengas acceso a los datos reales.

Dicho esto, algunos algoritmos aprenden de los errores de predicción; esto es especialmente común en aprendizaje por refuerzo En este caso, un agente realiza una acción, observa su resultado y lo utiliza para planificar acciones futuras. Por ejemplo, una aspiradora robótica podría empezar con un modelo del mundo en el que limpia todos los lugares con la misma frecuencia, y luego aprender a aspirar más los lugares sucios (en los que es "recompensado" por encontrar suciedad) y menos los limpios.

En línea o incremental Los algoritmos pueden actualizarse repetidamente con nuevos datos de entrenamiento. Esto no depende necesariamente de la precisión de la predicción del modelo, pero podría imaginar un algoritmo en el que los pesos se actualicen de forma más agresiva si, por ejemplo, los nuevos datos parecen muy poco probables dado el modelo actual. Existen versiones en línea para la regresión logística: por ejemplo McMahan y Streeeter (2012) .

0voto

ebricca Puntos 31

La regresión logística (y, en general, el MLG) hace NO ¡pertenecen al aprendizaje automático! Más bien, estos métodos pertenecen a paramétrico modelado.

Ambos paramétrico y algoritmo (ML) utilizan los datos, pero en diferentes formas. Algoritmo Los modelos aprenden de los datos cómo los predictores se asignan al predictando, pero no hacen ninguna suposición sobre el proceso que ha generado las observaciones (ni ninguna otra suposición, en realidad). Consideran que las relaciones subyacentes entre las variables de entrada y salida son complejas y desconocidas y, por lo tanto, adoptan un enfoque basado en los datos para comprender lo que ocurre, en lugar de imponer una ecuación formal.

Por otro lado, paramétrico se prescriben modelos a priori basándose en algún conocimiento del proceso estudiado, utilizan los datos para estimar sus parámetros y hacen un montón de suposiciones poco realistas que rara vez se cumplen en la práctica (como la independencia, la igualdad de varianza y la distribución normal de los errores).

Además, los modelos paramétricos (como la regresión logística) son global modelos. No pueden capturar patrones locales en los datos (a diferencia de los métodos de ML que utilizan árboles como modelos base, por ejemplo RF o Boosted Trees). Véase esto papel página 5. Como estrategia de remediación, local (es decir, no paramétrico) se puede utilizar el GLM (véase, por ejemplo, el locfit paquete R).

A menudo, cuando se dispone de pocos conocimientos sobre el fenómeno subyacente, es mejor adoptar un enfoque basado en datos y utilizar la modelización algorítmica. Por ejemplo, si se utiliza la regresión logística en un caso en el que la interacción entre las variables de entrada y salida no es lineal, el modelo será claramente inadecuado y no se captará gran parte de la señal. Sin embargo, cuando el proceso se entiende bien, los modelos paramétricos tienen la ventaja de proporcionar una ecuación formal que lo resume todo, lo cual es poderoso desde el punto de vista teórico.

Para un análisis más detallado, lea esto excelente papel por Leo Breiman.

-1voto

aconkey Puntos 154

Creo que las otras respuestas hacen un buen trabajo al identificar más o menos lo que es el Aprendizaje Automático (como indican, puede ser algo difuso). Añadiré que la Regresión Logística (y su versión multinomial más general) se utiliza muy comúnmente como medio para realizar la clasificación en las redes neuronales artificiales (que creo que están inequívocamente cubiertas por cualquier definición sensata de aprendizaje automático que se elija), por lo que si mencionas la Regresión Logística a una persona de redes neuronales, es probable que piense inmediatamente en ella en este contexto. Vincularse a un peso pesado del aprendizaje automático es una buena manera de convertirse en una técnica de aprendizaje automático, y creo que hasta cierto punto eso es lo que ocurrió con varias técnicas de regresión, aunque yo no descartaría que fueran técnicas de aprendizaje automático propiamente dichas.

-1voto

Keeper Hood Puntos 108

Creo que cualquier procedimiento que sea "iterativo" puede considerarse un caso de aprendizaje automático. La regresión puede considerarse aprendizaje automático. Podríamos hacerlo a mano, pero nos llevaría mucho tiempo, si es que es posible. Así que ahora tenemos estos programas, máquinas, que hacen las iteraciones por nosotros. Se acercan cada vez más a una solución, o a la mejor solución o al mejor ajuste. Así, el "aprendizaje automático". Por supuesto, cosas como las redes neuronales acaparan la mayor parte de la atención en lo que respecta al aprendizaje automático, por lo que solemos asociar el aprendizaje automático a estos atractivos procedimientos. Además, la diferencia entre aprendizaje automático "supervisado" y "no supervisado" es relevante aquí

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X