Tengo una pregunta acerca de los efectos de desplazamiento de la intersección en la logística de ajuste sobre la media de una determinada transformación de las puntuaciones.
Aquí es la notación que se utiliza para la pregunta. El modelo de regresión logística es $$ \begin{align} \mathbb{P}[Y_i =1 \mid \boldsymbol{X}_i] &= \dfrac{1}{1+\exp(-\boldsymbol{X}_i'\boldsymbol{\beta})} \\[1em] &\equiv p(\boldsymbol{X}_i; \boldsymbol{\beta}) \end{align} $$ donde $p$ es la puntuación de la función. Yo estimación de los parámetros del modelo, y denotan ellos $\widehat{\boldsymbol{\beta}}$, por lo que la estimación de las puntuaciones de la modelo se $p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})$. Estoy interesado en la media de la muestra de todas la estimación de las puntuaciones que cruzar un umbral determinado, $\delta$, dicen. Es decir, la cantidad $$ \dfrac{\sum_{i=1}^n p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\bf{1}_{\left[p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\geq \delta\right]}}{\sum_{i=1}^n\bf{1}_{\left[p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\geq \delta\right]}} $$
Now suppose that I shift the estimated linear index for all observations by the same quantity $\alpha$, and denote the transformed scores as
$$ \begin{align} q(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}}) &= \dfrac{1}{1+\exp(-(\boldsymbol{X}_i'\widehat{\boldsymbol{\beta}}+\alpha))} \\ &= \dfrac{\exp (\alpha)}{\exp (\alpha)+\exp(-\boldsymbol{X}_i'\widehat{\boldsymbol{\beta}})} \end{align} $$
Es fácil ver que si $$ \begin{alignat}{2} & \alpha &\geq& 0\\ \implies\,& \exp(\alpha) &\geq& 1\\ \implies\,& q(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}}) &\geq& p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}}) \\ \implies\,& \sum_{i=1}^n q(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\bf{1}_{\left[q(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\geq \delta\right]} &\geq& \sum_{i=1}^n p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\bf{1}_{\left[p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\geq \delta\right]}\,\text{and also,}\\ \implies & \sum_{i=1}^n\bf{1}_{\left[q(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\geq \delta\right]} &\geq& \sum_{i=1}^n\bf{1}_{\left[p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\geq \delta\right]} \end{alignat} $$ Sin embargo, dado que el denominador y el numerador tanto se vuelven más grandes de la $q$ función, es difícil saber qué pasará con la relación, $$ \dfrac{\sum_{i=1}^n p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\bf{1}_{\left[p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\geq \delta\right]}}{\sum_{i=1}^n\bf{1}_{\left[p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\geq \delta\right]}} $$ que es $$ \dfrac{\sum_{i=1}^n q(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\bf{1}_{\left[q(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\geq \delta\right]}}{\sum_{i=1}^n\bf{1}_{\left[q(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\geq \delta\right]}}\overset{?}{\lesseqqgtr} \dfrac{\sum_{i=1}^n p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\bf{1}_{\left[p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\geq \delta\right]}}{\sum_{i=1}^n\bf{1}_{\left[p(\boldsymbol{X}_i; \widehat{\boldsymbol{\beta}})\geq \delta\right]}}$$
Estoy bastante seguro de que hay un ejemplo como este en la Teoría del Punto de Estimación por Lehmann y Casella, para la univariante (no regresión caso), pero he sido incapaz de encontrarlo.
Simulaciones
Decidí simular el escenario anterior para ver si podía conseguir una intuición para este problema. Los datos de generación de proceso que he utilizado para la generación de los datos es ligeramente no-estándar, ya que quería asegurarme de que mi simulaciones fueron robustos a la distribución de la hipótesis. Puede ser útil para probar diferentes parámetros de configuraciones en la elección de unos parámetros fijos.
Aquí es el R
código para las simulaciones (agradecería si alguien puede confirmar que este código está haciendo lo que creo que es).
# purpose: simulate logistic regression
# date created: 27th October 2012
# comments:
# author:
# dependencies: faraway
library(faraway)
# simulation parameters
vBeta <- rbind(0.1, 0.2, 0.3, 0.4) # vector of coefficients
sDelta <- 0.16 # threshold for the scores
sAlpha <- 0.7 # shift in linear index
# matrix to hold the results
mResults <- matrix(0, nrow=1000, ncol=2)
for(i in seq(from=1, to=1000, by=1)) {
# simulate the data
mX <- matrix(rnorm(400, 4, 1), 100, 4)
vY <- (0.4 + mX%*%vBeta + rt(n=100, df=7)>=5)
data <- as.data.frame(cbind(vY,mX))
# logistic regression
resLogitFit <- glm(V1~V2+V3+V4+V5, binomial(link = "logit"), data=data)
# save the mean of the scores that are above a certain value
mResults[i,1] <- mean(resLogitFit$fitted.values[resLogitFit$fitted.values > sDelta])
# effect the logit transformation on the shifted linear index
data$shiftedScores <- ilogit(resLogitFit$linear.predictors+sAlpha)
mResults[i, 2] <- mean(data$shiftedScores[data$shiftedScores > sDelta])
}
# plot the two means across simulations
matplot(y=mResults, type="l",ylim=c(0.2, 1), xlab="Simulation #",
ylab="Estimated statistic")
legend(1, 1, c("(mean) truncated scores", "(mean) shifted truncated scores"),
cex=0.8, col=c("black","red"), lty=1:2)
# count the number of times the shifted scores exceed the older means
sum(mResults[,1] > mResults[,2])
Esto produce el siguiente gráfico, lo que parece indicar que el pasado truncado puntuaciones tienen una media más alta, aunque esto depende del cambio de parámetro.
Me gustaría mucho una explicación teórica para apoyar a estos resultados de la simulación.