8 votos

¿Es posible simular regresión logística sin aleatoriedad?

Podemos simular la regresión lineal sin aleatoriedad, lo que significa que podemos hacer $y=X\beta$ en lugar de $y=X\beta+\epsilon$. Entonces si se ajustan a un modelo lineal de los coeficientes será idéntica a la de la "tierra de la verdad". Aquí es un ejemplo.

set.seed(0)
n    <- 1e5
p    <- 3
X    <- matrix(rnorm(n*p), ncol=p)
beta <- runif(p)
# y  <- X %*% beta + rnorm(n)*0.5
# remove the randomness
y    <- X %*% beta
dat  <- data.frame(y=y, x=X)
lm.res = lm(y ~ .-1, data=dat)
norm(as.matrix(lm.res$coefficients - beta))
[1] 2.176037e-14

Mi pregunta es que podemos hacer el similar de simulación con regresión logística? A partir de esta pregunta puedo obtener el punto de eliminar la aleatoriedad puede ser hecho usando determinista declaración en lugar de la muestra de la distribución binomial.

y <- ifelse(plogis(X %*% beta)>0.5,1,0) 

en lugar de

y <- rbinom(n,1,prob=plogis(X %*% beta))

Pero si hacemos eso, la separación completa que va a suceder, y no podemos obtener los coeficientes. Por otro lado, si añadimos la regularización, entonces los coeficientes no serán los datos generados.

Así que, ¿qué puedo hacer para "eliminar la aleatoriedad en la regresión logística" y resolver el "ground truth" como los coeficientes de la regresión lineal caso?

Siento que tengo algún malentendido fundamental del concepto, ¿qué me estoy perdiendo?

7voto

alexs77 Puntos 36

La regresión logística no tiene un "error" plazo como con la regresión lineal clásica. La excepción a esto podría ser umbrales concretos de regresión lineal con una logística término de error, pero ese no es el comúnmente aceptado modelo de probabilidad que se traduce en un modelo de regresión logística. Esto es debido a que los modelos logísticos tienen una media de la varianza de la relación. El análogo a la adición de un término de error" a un modelo de regresión lineal es en realidad un quasibinomial modelo en el que la varianza es simplemente proporcional a p*(1-p).

Una pregunta relacionada puede ser cómo obtener el modelo de regresión de los resultados de los cuales son idénticos a lo largo de diversos diseños o repeticiones. Esto se puede hacer con un "truco" en modelos de regresión de software. Usted puede generar no integral a $Y$ resultados de la predicción del riesgo de que el resultado en la misma regresión logística resultados independientes del diseño de $X$. Por ejemplo: x1 <- seq(-3, 3, 0.1) y x2 <- rnorm(61) como dos diseños diferentes. Como en su caso, y1 <- plogis(0.3*x1) y y2 <- plogis(0.3*x2) tanto en el resultado en el mismo modelo de regresión logística resultados con 0,3 como el registro de odds ratio y 0.0 como las probabilidades de registro para $x=0$.

> glm(y1 ~ x1, family=binomial)

Call:  glm(formula = y1 ~ x1, family = binomial)

Coefficients:
(Intercept)           x1  
 -2.528e-16    3.000e-01  

Esto se relaciona a su pregunta porque las estimaciones de los parámetros son exactamente como se define en el modelo de probabilidad, independiente de la de diseño de $x$, y sin separación (por ejemplo, registro de los odds ratios, $\beta = \pm \infty$).

Modelado de resultados fraccionarios en un modelo logístico es una forma aceptada de análisis de datos ecológicos, donde el resultado de hecho puede ser fraccionada. No casualmente, este es también un tipo de modelado cuando quasibinomial modelos son de las que más se utilizan. También no por casualidad, creo que la dispersión es proporcional a un parámetro de escala para la logística término de error al hacer "latente de regresión logística".

5voto

Johnny Puntos 151

Siempre me gusta pensar en la regresión logística como lo que sucede si se aplica una decisión binaria a un modelo lineal. Es decir, supongamos que hay una cierta relación subyacente que sigue el modelo lineal: $$ y = X\beta+\varepsilon $$ donde $X$ es la variable independiente y $\beta$ el coeficiente (o pendiente) en esa variable, y $\varepsilon$ es el ruido aleatorio. Y entonces digamos que aplicar una función a la variable continua $y$ que se asigna a un resultado binario: $$ f(y) = \left\{\begin{matrix}0, ~\operatorname{if}~ y \operatorname{\leqslant \theta} \\1, ~\operatorname{if}~ y \operatorname{>\theta} \end{de la matriz}\right. $$ donde $\theta$ es un umbral. ¿Cuál es la probabilidad de que esta función devuelve $1$, dado un cierto valor de $X$? Si asumimos que el $\varepsilon$ se distribuye Normalmente con una media de $0$ y la varianza $\sigma^2$, entonces se puede calcular esta probabilidad como:

$$ p(f(y)=1|X)=p(y>\theta|X)=\int_\theta^\infty N\left(y; X\beta \sigma^2 \right)dy $$

En otras palabras, se trata de calcular el área bajo la distribución Normal que es el de la derecha el umbral. Tenga en cuenta que esta probabilidad es la esencia de un modelo de regresión logística se pretende describir. Y de hecho, si la trama esta probabilidad como una función de la $X$, se puede conseguir algo bastante cercano a la forma de la función logística (de hecho la función logística se utiliza a menudo como una buena aproximación a la distribución Normal acumulativa).

Para los valores de $X\beta$ cerca del umbral, la probabilidad de que $y$ estará por encima del umbral es de cerca de $0.5$, debido a que el ruido de $\varepsilon$ pueden influir en el resultado de cualquier manera. Como aumentar $X$, $X\beta$ va a llegar más lejos de $\theta$ $f(y)=1$ se convierte en más probable. De manera crucial, de la rapidez de $p(f(y)=1|X)$ aumenta con la $X$ depende de dos cosas: la pendiente $\beta$ y la varianza del ruido de $\sigma^2$. Más precisamente, depende de la relación de $\frac{\beta}{\sigma}$. Es este (señal a ruido) ratio que determina la (esperada) el coeficiente de una regresión logística. En otras palabras, usted puede pensar de los coeficientes de regresión logística como controlar la cantidad de cada variable independiente necesita cambiar relativos al ruido en los datos con el fin de aumentar la probabilidad de que un cierto resultado por cierta cantidad.

Ahora a llegado a su pregunta: usted se está preguntando si es posible eliminar todos los aleatoriedad, es decir, no tienen ningún ruido. Esto significaría que $\sigma$ es igual a $0$, y por lo tanto $\frac{\beta}{\sigma}$ sería indefinido (o "infinito"). Esto explica lo que se encuentra, que no se puede estimar los coeficientes cuando no hay ruido. De hecho, usted puede pensar en la separación perfecta de lograr sin el ruido como correspondiente a una infinita coeficiente en su variable independiente, ya que (para $X\beta$ cerca del umbral de $\theta$) sólo necesita cambiar $X$ una cantidad infinitesimal con el fin de ir todo el camino de$p(y>\theta|X)=0$$p(y>\theta|X)=1$.

Edit: en realidad, una cosa que podría hacer es, en lugar de extraer muestras de una distribución binomial para simular los datos, reemplazar estas muestras de sus expectativas, es decir, la probabilidad predicha por la simulación de la función logística. De esa manera, usted está quitando la aleatoriedad que se deriva de la simulación de una muestra limitada (es decir, la variabilidad del muestreo), y por lo tanto su coeficiente de estimaciones a continuación, la igualdad de la tierra la verdad (ya que no hay una función logística que se adapte exactamente a estos valores).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X