26 votos

¿Por qué la regresión logística se denomina algoritmo de aprendizaje automático?

Si he entendido bien, en un algoritmo de aprendizaje automático, el modelo tiene que aprender de su experiencia, es decir, cuando el modelo da una predicción errónea para los nuevos casos, debe adaptarse a las nuevas observaciones y, con el tiempo, el modelo se vuelve cada vez mejor. No veo que la regresión logística tenga esta característica. Entonces, ¿por qué se sigue considerando un algoritmo de aprendizaje automático? ¿Cuál es la diferencia entre la regresión logística y la regresión normal en términos de "aprendizaje"?

Tengo la misma pregunta para los bosques aleatorios.

¿Y cuál es la definición de "aprendizaje automático"?

26voto

Mark L. Stone Puntos 2037

El aprendizaje automático está de moda y es donde está el dinero. La gente llama a las cosas que intenta vender lo que está de moda en ese momento y, por tanto, "se vende". Eso puede ser vender software. Eso puede ser venderse a sí mismo como empleado actual tratando de ser promovido, como futuro empleado, como consultor, etc. Puede ser un gerente que intenta que un pez gordo de la empresa le apruebe el presupuesto para contratar gente y comprar cosas, o para convencer a los inversores de que inviertan en su nueva empresa de moda, que utiliza el aprendizaje automático como clave para crear una aplicación de sexting mejorada. Así que el software hace Aprendizaje Automático y la gente es experta en Aprendizaje Automático, porque eso es lo que está de moda y, por lo tanto, lo que se vende... al menos por ahora.

Hice todo tipo de ajuste de modelos estadísticos lineales y no lineales hace más de 30 años. Entonces no se llamaba aprendizaje automático. Ahora, la mayor parte lo sería.

Al igual que todo el mundo y su tío es ahora un "científico" de datos. Eso está de moda, es supuestamente sexy, así que así se llama la gente. Y eso es lo que los directores de contratación que tienen que conseguir que se apruebe el presupuesto para contratar a alguien listan los puestos como. Así que alguien que no tiene ni idea de matemáticas, probabilidad, estadística, optimización o cálculo numérico/de punto flotante, utiliza un paquete de R o Python de dudosa corrección y robustez de implementación, y que se etiqueta como algoritmo de Aprendizaje Automático, para aplicarlo a datos que no entiende, y se autodenomina Científico de Datos en base a su experiencia en hacerlo.

Esto puede sonar frívolo, pero creo que es la esencia de la situación.

Editar: Lo siguiente fue tuiteado el 26 de septiembre de 2019:

https://twitter.com/daniela_witten/status/1177294449702928384

Daniela Witten @daniela_witten "Cuando recaudamos dinero es IA, cuando contratamos es aprendizaje automático, y cuando hacemos el trabajo es regresión regresión logística".

(No estoy seguro de a quién se le ocurrió esto, pero es una joya)

24voto

TrynnaDoStat Puntos 3590

El aprendizaje automático no es un término bien definido.

De hecho, si se busca en Google "Machine Learning Definition" las dos primeras cosas que se obtienen son bastante diferentes.

Desde WhatIs.com ,

El aprendizaje automático es un tipo de inteligencia artificial (IA) que que proporciona a los ordenadores la capacidad de aprender sin estar explícitamente programados. El aprendizaje automático se centra en el desarrollo de programas informáticos programas informáticos que pueden enseñarse a sí mismos a crecer y cambiar cuando se exponen a nuevos datos.

Desde Wikipedia ,

El aprendizaje automático explora la construcción y el estudio de algoritmos que pueden aprender de los datos y hacer predicciones sobre ellos.

La regresión logística se ajusta sin duda a la definición de la Wikipedia y se podría discutir si se ajusta o no a la definición de WhatIs.

Personalmente, defino el aprendizaje automático como lo hace la Wikipedia y lo considero un subconjunto de la estadística.

19voto

Marc Claesen Puntos 9818

Como ya han mencionado otros, no hay una separación clara entre la estadística, el aprendizaje automático, la inteligencia artificial, etc., así que hay que tomar cualquier definición con un grano de sal. La regresión logística se considera probablemente más estadística que aprendizaje automático, mientras que las redes neuronales se consideran normalmente aprendizaje automático (aunque las redes neuronales son a menudo una colección de modelos de regresión logística).

En mi opinión, el aprendizaje automático estudia los métodos que pueden aprender de alguna manera de los datos, normalmente construyendo un modelo de alguna forma. La regresión logística, al igual que la SVM, las redes neuronales, los bosques aleatorios y muchas otras técnicas, aprende de los datos cuando construyendo el modelo.

Si he entendido bien, en un algoritmo de aprendizaje automático, el modelo tiene que aprender de su experiencia

En realidad, no es así como se suele definir el aprendizaje automático. No todos los métodos de aprendizaje automático producen modelos que se adaptan dinámicamente a los nuevos datos (este subcampo se denomina aprendizaje en línea ).

¿Cuál es la diferencia entre la regresión logística y la regresión normal en términos de "aprendizaje"?

Muchos métodos de regresión también se clasifican como aprendizaje automático (por ejemplo, SVM).

12voto

dan90266 Puntos 609

La regresión logística fue inventada por el estadístico DR Cox en 1958, por lo que es anterior al campo del aprendizaje automático. La regresión logística es no un método de clasificación, gracias a Dios. Es un modelo de probabilidad directa.

Si crees que un algoritmo tiene que tener dos fases (conjetura inicial, y luego "corregir" los "errores" de predicción) considera esto: La regresión logística acierta a la primera. Es decir, en el espacio de los modelos aditivos (en el logit). La regresión logística es un competidor directo de muchos métodos de aprendizaje automático y supera a muchos de ellos cuando los predictores actúan principalmente de forma aditiva (o cuando el conocimiento de la materia preescribe correctamente las interacciones). Algunos llaman a la regresión logística un tipo de aprendizaje automático, pero la mayoría no lo haría. Se podría llamar a algunos métodos de aprendizaje automático (las redes neuronales son un ejemplo) modelos estadísticos.

8voto

Digio Puntos 637

Tendré que estar en desacuerdo con la mayoría de las respuestas aquí y afirmar que Aprendizaje automático tiene un alcance muy preciso y una clara distinción de las estadísticas. El ML es un subcampo de la informática con una larga historia, que sólo en los últimos años ha encontrado aplicaciones fuera de su dominio. El campo paterno de ML y su dominio de aplicación se encuentra dentro de la Inteligencia Artificial (robótica, software de reconocimiento de patrones, etc.), por lo tanto, no es sólo un "término de moda" como "Big Data" o "Data Science". La estadística, por otro lado, (que viene de la palabra "estado") se desarrolló dentro de las ciencias sociales y económicas como una herramienta para los humanos, no para las máquinas. El ML evolucionó por separado de la estadística y, aunque en algún momento comenzó a basarse en gran medida en los principios estadísticos, no es en absoluto un subcampo de la estadística. El ML y la estadística son campos complementarios, no superpuestos.

Respuesta larga :

Como su nombre indica, los métodos de ML se crearon para el software o las máquinas, mientras que los métodos estadísticos se crearon para los humanos. Tanto el ML como la estadística se ocupan de las predicciones sobre los datos, pero los métodos de ML siguen un enfoque automatizado no paramétrico, mientras que los métodos estadísticos requieren una gran cantidad de trabajo manual de construcción de modelos con un factor explicativo añadido. Esto tiene mucho sentido si se tiene en cuenta que los algoritmos de ML se desarrollaron en la investigación de la IA como un medio de predicción automatizada destinado a integrarse en el software de robótica (por ejemplo, para el reconocimiento de la voz y la cara). Cuando una "máquina" hace una predicción, no le importan las razones que hay detrás. A una máquina no le importa conocer los impulsores/predictores que hay detrás de un modelo que clasifica el correo electrónico como spam o no spam, sólo le importa tener la mejor precisión de predicción. Por eso, prácticamente todos los métodos de ML son cajas negras No es porque no tengan un modelo, es porque el modelo se construye algorítmicamente y no está pensado para que sea visible ni para los humanos ni para las máquinas.

El concepto de "entrenamiento" en el ML se basa en la capacidad de cálculo, mientras que la construcción de modelos estadísticos con métodos de tipo OLS para la estimación de parámetros se basa en los conocimientos de un experto humano. En un escenario de regresión múltiple, depende estrictamente del estadístico utilizar su juicio experto para elegir su modelo y verificar todos los supuestos estadísticos necesarios. El objetivo de un estadístico no es sólo encontrar patrones y utilizarlos para hacer predicciones, sino también comprender sus datos y su problema con mucha más profundidad que el ML.

Por supuesto, en algunas ocasiones el ML y la estadística se solapan, como ocurre con muchas disciplinas. La regresión logística es una de estas ocasiones; originalmente un método estadístico, que se parece tanto al simple Perceptrón (una de las técnicas más fundamentales de ML), que algunos lo consideran un método de ML.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X