15 votos

¿Cómo puede producir regresión logística curvas que aren ' t funciones tradicionales?

Creo que tengo algo de confusión fundamental acerca de cómo las funciones de regresión Logística de trabajo (o tal vez sólo funciona como un todo).

¿Cómo es que la función h(x), se obtiene la curva se observa en la izquierda de la imagen?

Veo que este es un gráfico de dos variables, pero luego estas dos variables (x1 y x2) son también los argumentos de la función en sí. Sé el estándar de funciones de una variable de mapa a una salida, pero esta función claramente no está haciendo-y no estoy totalmente seguro de por qué.

enter image description here

Mi intuición es que el azul/rosa curva no es realmente que se trazan en este gráfico, sino que es una representación (círculos y X) que se correlacionan con los valores en la siguiente dimensión (3º) de la gráfica. Es este razonamiento defectuoso y solo estoy perdiendo algo? Gracias por la perspicacia/intuición.

19voto

Antoni Parellada Puntos 2762

Este es un ejemplo de sobreajuste en el curso de Coursera en ML por Andrew Ng, en el caso de un modelo de clasificación con dos características (x1,x2)(x1,x2), en el que los verdaderos valores son simbolizados por ×× ,, y la decisión de límite es precisamente a la medida para el conjunto de entrenamiento mediante el uso de alto orden de los términos polinomiales.

El problema que se intenta ilustrar se relaciona con el hecho de que, si bien el límite de la decisión de la línea (curvilíneo de la línea en azul) no mis-clasificar los ejemplos, su capacidad para generalizar fuera del conjunto de entrenamiento se verá comprometida. Andrew Ng, pasa a explicar que la regularización puede mitigar este efecto, y dibuja la curva magenta como una decisión límite menos ajustados para el conjunto de entrenamiento, y es más probable que generalizar.


Con relación a tu pregunta específica:

Mi intuición es que el azul/rosa curva no es realmente que se trazan en este gráfico, sino que es una representación (círculos y X) que se correlacionan con los valores en la siguiente dimensión (3º) de la gráfica.

No hay ninguna altura (tercera dimensión): hay dos categorías, (×(× ),), y la decisión de la línea, se muestra cómo el modelo es la separación de ellos. En el modelo más sencillo

hθ(x)=g(θ0+θ1x1+θ2x2)hθ(x)=g(θ0+θ1x1+θ2x2)

la decisión límite será lineal.


Tal vez usted tiene en mente algo como esto, por ejemplo:

5+2x1.3x21.2x2y+1x2y2+3x2y35+2x1.3x21.2x2y+1x2y2+3x2y3

enter image description here

Sin embargo, observe que hay un g()g() función en la hipótesis - la logística de activación en su pregunta inicial. Así que para cada valor de x1x1 x2x2 la función polinomial se somete y de "activación" (a menudo no lineal, en la de una función sigmoide como en el OP, aunque no necesariamente (por ejemplo, RELU)). Como un almacén de salida de la activación sigmoide se presta a una interpretación probabilística de la: la idea en un modelo de clasificación es que en un determinado umbral, la salida será etiquetado ×× (( o ).). Eficaz, una potencia continua de salida será aplastado en un binario (1,0)(1,0) salida.

Dependiendo de los pesos (o parámetros) y la función de activación, cada punto de (x1,x2)(x1,x2) en el avión se le asigna a la categoría de ×× o . Este etiquetado puede o puede no ser la correcta: que será correcta cuando los puntos de la muestra tomada por ×× sobre el plano en la imagen de la OP corresponden a la predicción de las etiquetas. Los límites entre las regiones del plano etiquetados ×× y en los adyacentes a las regiones marcadas . Que puede ser una línea o varias líneas aislar "las islas" (ver por ti mismo jugando con esta aplicación por Tony Fischetti parte de esta entrada de blog en R-bloggers).

Aviso de la entrada en Wikipedia sobre la decisión de la frontera:

En una estadística-problema de clasificación con dos clases, una decisión de la cobertura o de la decisión de la superficie es una hipersuperficie que las particiones de la subyacente espacio vectorial en dos conjuntos, uno para cada clase. El clasificador de clasificar todos los puntos en un lado de la decisión de límite como pertenecientes a una clase y a todos aquellos en el otro lado como pertenecientes a la otra clase. Una decisión límite es la región de un problema de espacio en el que la salida de la etiqueta de un clasificador es ambigua.

No hay necesidad para una altura componente gráfico de los límites reales. Si, por otro lado, está el trazado de la activación sigmoide valor (continua con rango de [0,1]),[0,1]),, entonces usted necesita a un tercero ("altura") componente para visualizar el gráfico:

enter image description here


Si desea introducir un 33D visualización de la decisión de la superficie, marque esta diapositiva en un curso en línea sobre NN por Hugo Larochelle, en representación de la activación de una neurona:

enter image description here

donde y1=hθ(x)y1=hθ(x), e WW es el peso de vectores (Θ)(Θ) en el ejemplo de la OP. Más interesante es el hecho de que ΘΘ es ortogonal a la separación de "cresta" en el clasificador: efectivamente, si la arista es un (hiper-)plano, el vector de pesos o de los parámetros es el vector normal.

Unión de múltiples neuronas, estas separar hyperplanes puede ser suman y se restan para terminar con caprichosas formas:

enter image description here

Esto se vincula con el universal teorema de aproximación.

0voto

Daniele Testa Puntos 152

Tenemos algunos pesado matemáticos responder a esta pregunta. Nunca he visto un diagrama como el que tú describes aquí, con los valores de los predictores X1 y X2 y la decisión de límite' línea que separa la predicción positivos de la predicción de los negativos. (o es un mapa de predijo vs real los resultados?) Pero es útil---siempre y cuando usted tiene sólo dos predictores de interés que desea asignar.
Parece que la línea magenta separa la predicción positivos de la predicción de los negativos, mientras que la línea azul oscuro incluye todos los aspectos positivos. Este es generalmente el caso en que la regresión logística: el modelo de predecir correctamente el resultado de menos de 100% de los casos (y predecir algunos falsos positivos y/o falsos negativos).
Es posible ejecutar la regresión logística y el procedimiento producir la función h(x) para cada caso individual en el conjunto de datos. Esto va a producir un puntaje de propensión de cada sujeto, de 0 a 1, que le da la predicción de la probabilidad o probabilidad de que el resultado positivo de cada asignatura, basado en el tema de variables de predicción, basado en el modelo de regresión logística utilizando todos los sujetos. Aquellos en el puntaje de propensión de corte de 0,5 o superiores, se prevé contar con el resultado, y aquellos por debajo de 0,5 se prevé que no se tiene el resultado. Pero usted puede ajustar este nivel de corte como mejor le parezca, por ejemplo, para hacer un diagnóstico del modelo de predicción de algunos resultados sobre la base de todas las variables de entrada que se introducen en el análisis de regresión logística. Puede establecer el punto de corte de 0,3 por ejemplo. A continuación, puede hacer una tabla de 2X2 de predijo-vs-real de los resultados, y determinar su sensibilidad, la especificidad, la tasa de falsos positivos y falsos negativos en la tarifa de la modelo basado en este nivel de corte. Esto proporciona más información y también se libera desde el límite de 2 variables utilizadas en el gráfico. Usted puede utilizar muchos de los predictores como razonablemente puede encajar en el modelo y hacer una tabla de 2X2 de real-vs-predijo el resultado. Desde regresión logística utiliza categórica (sí-no) de los resultados, cada celda de la tabla de 2X2 es simplemente un recuento de los sujetos que cumplen con la fila y la columna de criterios.
En el gráfico que facilite, que probablemente supone una frecuencia de corte de 0,5. Este es el defecto común para el software. Si ha ajustado es mayor (0,65 por ejemplo), podría incluir todos los s, dentro de la línea, pero también se tienen algunos falsos positivos (X, que cree que deberían estar s) que sería lo predicho por el modelo para tener el resultado de interés. (o ajustar la frecuencia de corte la puntuación más baja y tienen más falsos negativos).
Espero que esto ayude.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X