13 votos

Comprensión de la regresión logística y probabilidad

¿Cómo afecta la estimación de los parámetros de/la Formación de un logisticregressuib realmente funcionan? Voy a tratar de poner lo que he conseguido hasta ahora.

  1. La salida es y la salida de la función logística en la forma de una probabilidad en función del valor de x : $$P(y=1|x)={1\over1+e^{-\omega^Tx}}\equiv\sigma(\omega^Tx)$$ $$P(y=0|x)=1-P(y=1|x)=1-{1\over1+e^{-\omega^Tx}}$$
  2. Para una dimensión de la denominada Probabilidades se define como sigue: $${{p(y=1|x)}\over{1-p(y=1|x)}}={{p(y=1|x)}\over{p(y=0|x)}}=e^{\omega_0+\omega_1x}$$
  3. Ahora añadir el log función para obtener la W_0 y W_1 en forma lineal: $$Logit(y)=log({{p(y=1|x)}\over{1-p(y=1|x)}})=\omega_0+\omega_1x$$
  4. Ahora el problema parte el Uso de la probabilidad (Big X es y ) $$L(X|P)=\prod^N_{i=1,y_i=1}P(x_i)\prod^N_{i=1,y_i=0}(1-P(x_i))$$ ¿Se puede saber por qué estamos considerando la probabilidad de que y=1 dos veces ? desde : $$P(y=0|x)=1-P(y=1|x)$$

y cómo obtener los valores de ω?

15voto

ChicksDigTrig Puntos 6

Asume en general que decidió tomar un modelo de la forma

$$P(y=1|X=x) = h(x;\Theta)$$

para algunos el parámetro $\Theta$. Entonces sólo tiene que escribir la probabilidad de la misma, es decir,

$$L(\Theta) = \prod_{i \in \{1, ..., N\}, y_i = 1} P(y=1|x=x;\Theta) \cdot \prod_{i \in \{1, ..., N\}, y_i = 0} P(y=0|x=x;\Theta)$$

que es el mismo que

$$L(\Theta) = \prod_{i \in \{1, ..., N\}, y_i = 1} P(y=1|x=x;\Theta) \cdot \prod_{i \in \{1, ..., N\}, y_i = 0} (1-P(y=1|x=x;\Theta))$$

Ahora que usted ha decidido a "suponer" (modelo)

$$P(y=1|X=x) = \sigma(\Theta_0 + \Theta_1 x)$$

donde $$\sigma(z) = 1/(1+e^{-z})$$

así que usted acaba de calcular la fórmula para la probabilidad y hacer algún tipo de algoritmo de optimización con el fin de encontrar el $\text{argmax}_\Theta L(\Theta)$, por ejemplo, el método de newton o cualquier otro gradiente basado en el método.

Aviso que a veces, la gente dice que cuando se están haciendo de regresión logística no maximizar la probabilidad (como nosotros/usted hizo anteriormente), sino que minimiza una función de pérdida

$$l(\Theta) = -\sum_{i=1}^N{y_i\log(P(Y_i=1|X=x;\Theta)) + (1-y_i)\log(P(Y_i=0|X=x;\Theta))}$$

pero aviso que $-\log(L(\Theta)) = l(\Theta)$.

Este es un patrón general en el Aprendizaje de Máquina: El lado práctico (minimizando la pérdida de las funciones que miden que tan " mal " un modelo heurístico es) es en realidad igual a la 'teoría' (modelado explícitamente con la $P$-símbolo, la maximización de la estadística de cantidades como de las probabilidades) y, de hecho, muchos de los modelos que no se parecen a probabilístico (SVMs por ejemplo) puede ser reunderstood en un contexto probabilístico y son, de hecho, maximizations de las probabilidades.

8voto

RGA Puntos 113

Su probabilidad función de (4) se compone de dos partes: el producto de la probabilidad de éxito de sólo aquellas personas de la muestra que ha experimentado un éxito, y el producto de la probabilidad de fallo sólo para las personas de la muestra que han experimentado un fracaso. Dado que cada individuo experimenta un éxito o un fracaso, pero no tanto, la probabilidad aparecerá para cada individuo sólo una vez. Que es lo que el $, y_i=1$ $,y_i=0$ significa que en la parte inferior del producto signos.

Los coeficientes están incluidos en la probabilidad de la función sustituyendo (1) en (4). De esa manera la probabilidad de la función se convierte en una función de $\omega$. El punto de máxima verosimilitud es encontrar el $\omega$ que maximice la probabilidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X