7 votos

El máximo número de variables independientes de la Regresión Logística

Hay una medida en la regresión logística que tal vez penaliza por tener demasiadas variables independientes como en el de regresión múltiple con el R cuadrado ajustado?

Es decir, no tener demasiadas variables independientes en una regresión logística duele el modelo?

¿Qué acerca de las variables ficticias? Se puede tener demasiados de esos hasta el punto de imprevisibilidad?

9voto

dan90266 Puntos 609

Para la típica baja de la señal:ruido vemos en la mayoría de los problemas, una regla común es que usted necesita alrededor de 15 veces la cantidad de eventos y 15 veces la cantidad de no-eventos, ya que hay parámetros que va a entretener a poner en el modelo. El motivo de esa "regla" es que resulta en un modelo de métricas de rendimiento que es probable que sea tan bueno o tan malo en los nuevos datos como aparece en los datos de entrenamiento. Pero usted necesita 96 observaciones sólo para calcular la intersección de modo que, en general, predijo el riesgo está dentro de una $\pm 0.1$ margen de error de la verdadera situación de riesgo con confianza 0.95.

7voto

lennon310 Puntos 1882

Si el número de variables independientes no es muy grande, usted puede hacer "todos los subconjuntos de" regresión en el cual todos los posibles modelos de ajuste. El modelo el modelo con la más alta estadística F o porcentaje explicado de variación (PVE) (nota: el concepto fue creado con la regresión lineal, pero puede ser aplicado a la regresión logística ) está seleccionado. Pero a menudo los resultados que vamos a elegir el modelo completo. Así que necesitamos para penalizar a los modelos con muchas variables que no se ajustan mucho mejor que los modelos con menor número de variables con el Criterio de Información Akaike (AIC). Menor AIC valores por lo general indican un mejor modelo que vamos, por último, seleccione.

Si el número de variables independientes es grande. La estrategia es, seleccionar el mejor modelo con sólo una variable, a continuación, seleccione otra variable, por lo que el mejor modelo con dos variables se obtiene, a continuación, seleccione la 3ª variable...y así sucesivamente. La selección se detiene una vez AIC aumenta. Generalmente la complejidad es de alrededor de O(n^2) en lugar de O(2^n) en todos los subconjuntos de regresión.

2voto

Sundeep Puntos 6

Tener demasiados parámetros en comparación con las observaciones pueden llevar a sobreajuste. Varios ajustes o medidas pueden ser usadas para corregir esto. AIC, por ejemplo, tiene en cuenta tanto el número de variables y el número de observaciones en el conjunto de datos y es, probablemente, más a menudo se utiliza. AIC en sí no ajustar el modelo, sino que sirve como una herramienta para seleccionar el mejor modelo, si usted construir múltiples. Es, básicamente, una solución de compromiso entre el error residual y la complejidad del modelo.

Usted, además, puede echar un vistazo a otros "criterios de información" o técnicas más avanzadas como la validación cruzada, penalizado de regresión logística ("penalizado" paquete en R), ...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X