5 votos

Regresión logística-características lineales

Estaba leyendo este post en quora https://www.quora.com/What-are-the-advantages-of-different-classification-algorithms Aquí se dice que :-"La regresión logística es un algoritmo de clasificación bastante bueno que se puede entrenar siempre y cuando esperes que tus características sean aproximadamente lineales y que el problema sea linealmente separable" ¿Qué significa que las características sean lineales? Otro lugar donde aparece esto en el post es "Tree Ensembles tienen diferentes ventajas sobre LogisticR. Una ventaja principal es que no esperes características lineales " No estoy seguro de lo que significan las características lineales.

4voto

David Puntos 41

Creo que el término que utilizaron puede no ser un término estándar. Supongo que significa que el límite de decisión puede ser aproximado por un heperplano. (una línea en el espacio 2D). Aquí hay dos ejemplos para "característica lineal" (A) o no (B) en sapce bidimensional.

enter image description here

Aquí está mi respuesta a una pregunta muy relacionada, que puede ser útil para usted.

¿Todos los algoritmos de aprendizaje automático separan los datos linealmente?

3voto

Pankaj Puntos 249

Para otra visión de la separabilidad lineal (asumiendo que eso es lo que significan las características lineales) imagine que tiene un conjunto de datos simple con sex como covariable binaria y categórica y results como resultado binario de algún experimento.

sex   outcome
m     1  
m     1
m     0
f     0
f     0
f     0

Para los datos de respuesta binaria (es decir, como éste), es habitual utilizar una regresión logística para modelar, entre otras cosas, la probabilidad de outcome = 1 dado sex . Sin embargo, ¿qué pasaría si su aportación fuera sex = f . Entonces:

$$P(\text{outcome} = 1 | \text{sex} = f) = 0$$

porque no tenemos ejemplos de entrenamiento de que esto ocurra. De este modo, decimos que los datos son linealmente separables según la imagen de @hxd1011 de arriba.

De hecho, si intentara ajustar una regresión logística, probablemente obtendría un error porque las estimaciones MLE tienden al infinito (a menos que su programa informático tenga un parámetro que detenga el algoritmo, normalmente IRLS de seguir buscando un mínimo). Si obtienes datos como estos y quieres utilizar una regresión logística, puedes buscar en regresión logística penalizada . Aquí hay un bonito escrito sobre ello.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X