14 votos

Cuando es la regresión logística adecuada?

Actualmente estoy enseñando a mí mismo cómo hacer la clasificación, y específicamente estoy buscando a tres métodos: máquinas de vectores soporte, redes neuronales y regresión logística. Lo que estoy tratando de entender es la razón por la regresión logística nunca iba a funcionar mejor que los otros dos.

Desde mi comprensión de la regresión logística, la idea es ajustar una función logística para el conjunto de los datos. Así que si mis datos son binarios, todos mis datos con etiqueta 0 se debe asignar el valor 0 (o cerca de ella), y todos mis datos con valor 1 se debe asignar el valor 1 (o cerca de ella). Ahora, debido a que la función logística es continua y suave, la realización de esta regresión requiere que todos mis datos para adaptarse a la curva; no hay mayor importancia aplicado a los puntos de datos a cerca de la decisión de la frontera, y todos los puntos de datos contribuyen a la pérdida por diferentes cantidades.

Sin embargo, con máquinas de vectores soporte y redes neuronales, sólo los puntos de datos a cerca de la decisión de la frontera son importantes, siempre como un punto de datos se mantiene en el mismo lado de la decisión de los límites, se contribuirá a la misma pérdida.

Por lo tanto, ¿por qué habría de regresión logística siempre superan a las máquinas de soporte vectorial o redes neuronales, dado que "desperdicio de recursos" en tratar de ajustar una curva a un montón de importancia (fácilmente clasificable) de datos, en lugar de centrarse sólo en la difícil datos en torno a la decisión de la frontera?

31voto

dan90266 Puntos 609

Los recursos que considere "desperdiciado" son, de hecho, la información, las ganancias proporcionadas por regresión logística. Se comenzó con la premisa errónea. La regresión logística no es un clasificador. Es una probabilidad/riesgo estimador. A diferencia de la SVM, permite y espera que "cerca de las llamadas". Esto los llevará a la óptima toma de decisiones debido a que no trate de engañar a la predicción de la señal en la incorporación de una función de utilidad que está implícito cuando clasificar las observaciones. El objetivo de la regresión logística utilizando la estimación de máxima verosimilitud es para proporcionar una óptima estimaciones de Prob$(Y=1|X)$. El resultado se utiliza de muchas maneras, por ejemplo, levantamiento de curvas, el riesgo de crédito de puntuación, etc. Ver Nate Silver libro de la Señal y el Ruido de los argumentos a favor de razonamiento probabilístico.

Tenga en cuenta que la variable dependiente $Y$ en la regresión logística se puede codificar cualquier manera que usted desea: 0/1, A/B, sí/no, etc.

La principal hipótesis de la regresión logística es que $Y$ es realmente binario, por ejemplo, no fue inventado a partir de un subyacente ordinal o continuo de la variable de respuesta. Es, como métodos de clasificación, es que realmente todo-o-nada fenómenos.

Algunos analistas piensan que la regresión logística se supone linealidad de los efectos de los predictores en el registro de probabilidades de escala. Que era cierto sólo cuando el DR. Cox se inventó el modelo logístico, en 1958, en un momento en que la computación no estaba disponible para extender el modelo de uso de herramientas tales como la regresión de splines. La única debilidad real en la regresión logística es que usted necesita para especificar que las interacciones que desea permitir en el modelo. Para la mayoría de los conjuntos de datos este se convierte en una fortaleza debido a que los efectos principales aditivos en general son mucho más fuertes predictores de interacciones, y los métodos de aprendizaje automático que dar la misma prioridad a las interacciones puede ser inestable, difícil de interpretar, y requieren de mayores tamaños de muestra de regresión logística para predecir bien.

6voto

Jessy Puntos 2182

Grandes puntos arriba para cuando la regresión Logística es adecuado. Es importante tener en cuenta que la razón de regresión logística no es siempre tan altamente considerado como otro todo/nada clasificadores ( ver bosques aleatorios, CHAID etc) es que requiere mucho más suposiciones (valores atípicos, pequeño tamaño del efecto etc) para ser robusto. La más mínima desviación de estas hipótesis fundamentales inflar el error en la clasificación de las tasas de

5voto

TrynnaDoStat Puntos 3590

Tienes razón, a menudo de regresión logística hace poco como un clasificador (especialmente en comparación con otros algoritmos). Sin embargo, esto no significa que la regresión logística debe ser olvidado y nunca estudiado, ya que tiene dos grandes ventajas:

  1. Probabilística de los resultados. Frank Harrell (+1) se explica muy bien en su respuesta.

  2. Nos permite entender el impacto de una variable independiente tiene sobre la variable dependiente, mientras que el control de otras variables independientes. Proporciona, por ejemplo, las estimaciones y los errores estándar de las condicional de los odds ratios (¿cuántas veces mayor es la probabilidad de $Y=1$ al $X_1 = 1$ en lugar de $2$, mientras que la celebración de $X_2,...X_p$ constante).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X