Estaba leyendo este post en quora https://www.quora.com/What-are-the-advantages-of-different-classification-algorithms Aquí se dice que :-"La regresión logística es un algoritmo de clasificación bastante bueno que se puede entrenar siempre y cuando esperes que tus características sean aproximadamente lineales y que el problema sea linealmente separable" ¿Qué significa que las características sean lineales? Otro lugar donde aparece esto en el post es "Tree Ensembles tienen diferentes ventajas sobre LogisticR. Una ventaja principal es que no esperes características lineales " No estoy seguro de lo que significan las características lineales.
Respuestas
¿Demasiados anuncios?Creo que el término que utilizaron puede no ser un término estándar. Supongo que significa que el límite de decisión puede ser aproximado por un heperplano. (una línea en el espacio 2D). Aquí hay dos ejemplos para "característica lineal" (A) o no (B) en sapce bidimensional.
Aquí está mi respuesta a una pregunta muy relacionada, que puede ser útil para usted.
¿Todos los algoritmos de aprendizaje automático separan los datos linealmente?
Para otra visión de la separabilidad lineal (asumiendo que eso es lo que significan las características lineales) imagine que tiene un conjunto de datos simple con sex
como covariable binaria y categórica y results
como resultado binario de algún experimento.
sex outcome
m 1
m 1
m 0
f 0
f 0
f 0
Para los datos de respuesta binaria (es decir, como éste), es habitual utilizar una regresión logística para modelar, entre otras cosas, la probabilidad de outcome = 1
dado sex
. Sin embargo, ¿qué pasaría si su aportación fuera sex = f
. Entonces:
$$P(\text{outcome} = 1 | \text{sex} = f) = 0$$
porque no tenemos ejemplos de entrenamiento de que esto ocurra. De este modo, decimos que los datos son linealmente separables según la imagen de @hxd1011 de arriba.
De hecho, si intentara ajustar una regresión logística, probablemente obtendría un error porque las estimaciones MLE tienden al infinito (a menos que su programa informático tenga un parámetro que detenga el algoritmo, normalmente IRLS de seguir buscando un mínimo). Si obtienes datos como estos y quieres utilizar una regresión logística, puedes buscar en regresión logística penalizada . Aquí hay un bonito escrito sobre ello.