¿Hay algún suposiciones con respecto a los errores de la regresión logística, tales como la variación constante de los términos de error y la normalidad de los residuos?
También normalmente cuando se tienen puntos en los que tienen un Cocinero distancia mayor de 4/n, ¿eliminarlos? Si se quita a ellos, ¿cómo se puede saber si el modelo con la quita de puntos es mejor?
Respuestas
¿Demasiados anuncios?No sé si me puede dar una respuesta completa, pero te puedo dar algunas ideas que pueden ser útiles. En primer lugar, todos los modelos estadísticos / pruebas de hipótesis. Sin embargo, la regresión logística mucho ¿ no asumir que los residuos están normalmente distribuidos, ni que la varianza es constante. Más bien, se asume que los datos se distribuyen como un binomio, $\mathcal{B}(n_{x_i},p_{x_i})$, es decir, con el número de ensayos de Bernoulli igual al número de observaciones en ese mismo conjunto de valores de la covariable y con la probabilidad asociada con el conjunto de valores de la covariable. Recuerde que la varianza de una binomial es $np(1-p)$. Por lo tanto, si el $n$'s varían en los diferentes niveles de la covariable, las desviaciones. Además, si cualquiera de las variables de control están en absoluto relacionados con la variable de respuesta, entonces las probabilidades varían, y por lo tanto, también lo serán las desviaciones. Estos son hechos importantes acerca de la regresión logística.
Segundo, comparaciones del modelo se realiza generalmente entre modelos con diferentes especificaciones (por ejemplo, con diferentes conjuntos de las covariables incluidas), no sobre los diferentes subconjuntos de datos. Para ser honesto, no estoy seguro de lo que bien podría ser hecho. Con un modelo lineal, usted puede mirar el 2 $R^2$s a ver cuánto mejor que el ajuste es con el aberrante de datos excluidos, pero esto sólo será descriptivo, y usted debe saber que $R^2$ se tiene que ir. Con la regresión logística, el estándar $R^2$ no se puede utilizar, sin embargo. Hay varios 'pseudo-$R^2$s' que se han desarrollado para proporcionar información similar, pero que a menudo se consideran para ser defectuoso y no se utilizan a menudo. Para una visión general de los diferentes pseudo-$R^2$s que existen, ver aquí. Para algunos de discusión, crítica y, de ellos, ver aquí. Otra posibilidad podría ser el coletazo de las betas con y sin valores atípicos incluido para ver cómo excluyendo de ellos contribuye a la estabilización de su distribución de muestras. Una vez más, esto sólo sería descriptivo (es decir, no constituyen una prueba para saber qué modelo--er, subconjunto de los datos--preferir) y la varianza tendría que ir hacia abajo. Estas cosas son verdaderas, por tanto pseudo-$R^2$s y el jackknifed distribuciones, porque se ha seleccionado los datos para excluir basa en el hecho de que aparezcan extrema.
1) ¿hay algún suposiciones con respecto a los errores de la regresión logística tales como la constante de la varianza de los términos de error y la normalidad de los residuos?
Modelos de regresión logística no tienen "errores" en el sentido tradicional. Es contra-intuitivo y metodológicamente inconsistente. Los resultados de los modelos están equipados probabilidades o riesgos, mientras que los resultados observados son 0/1 caso de los indicadores. Metodológicamente, se tiende a enfatizar los dominios de muy alta o muy baja equipada probabilidades (que contribuyeron en muy pequeñas cantidades para el residual de distancia), mientras que el ajuste del modelo de algoritmo de lugares considerablemente mayor importancia en tales regiones. El cuadrado de la distancia es generalmente una mala manera de calibrar un modelo de regresión logística.
Una alternativa de la bondad de ajuste de la prueba es el de Hosmer-Lemeshow, en la que los valores ajustados se utilizan para crear discretizan las particiones basadas en los deciles de armarios de riesgo. Usted puede leer acerca de esta prueba en Alan Agresti del Análisis de Datos Categóricos o el libro de Regresión Logística por Hosmer y Lemeshow. Otro proceso es el uso de la Studentized Residuos, donde la media de la varianza de la relación se utiliza para reweight residuos por sus equipada inverso de la varianza. Para la regresión logística es este
$$r_{stud} = \frac{Y - \mu}{\sqrt{\mu(1-\mu)}}$$
2) También normalmente cuando se tienen puntos en los que tienen un Cocinero distancia mayor de 4/n, ¿eliminarlos? Si se quita a ellos, ¿cómo se puede saber si el modelo con la quita de puntos es mejor?
Nunca me quite los puntos basados en los análisis de sensibilidad. Si hago una muestra aleatoria de 100 personas y sus ingresos, y 1 persona pasa a ser un multimillonario, a continuación, más segura de mi suposición es que el 1 multimillonario representa 1/100th de la población.
Estoy de acuerdo con AdamO del comentario anterior, en general, suponiendo que 1 multimillonario representa 1/100th de la población está totalmente bien. Sin embargo, si la presencia de la 1 multimillonario sesga los datos tanto que la predicción para el otro 99 personas se ve afectada, me gustaría quitar el 1 multimillonario. Prefiero estar mal con la predicción de un valor atípico que todos los demás.
Habiendo dicho que, si se quita de puntos de datos utilizando Cook D los valores (es decir, cualquier cosa > 4/d.f.), a continuación, podría utilizar el área bajo las curvas ROC para ambos modelos de verificación para la mejora.