Para los fines de mi respuesta, voy a denotar la variable binaria de interés como $Y_i \text{ ;}(i=1,\dots,n)$ y los predictores $X_{ij} \text{ ;} (j=1,\dots,p)$ y asumir que $Y$ tiene valores de $Y=0$$Y=1$. También será conveniente definir $\gamma_m$ a indicar el modelo de $m \text{ ;}(m=1,..,M)$, de tal manera que $\gamma_m^TX_{ij}$ es igual a $X_{ij}$ si la j de la variable está en el mth modelo, y $0$ lo contrario.
Me gustaría hacer una modificación a su método, y dar una justificación. Usted está utilizando un clasificador modelo, lo que significa que usted desea predecir el valor de una variable categórica en el futuro - por lo que realmente debería ser la definición de una regla de predicción (dado un nuevo conjunto de predictores $X_{j}$, ¿cómo va a predecir si $Y=1$ o $Y=0$).
Así que yo sugeriría la evaluación de la predicción directamente, en lugar de la razón de verosimilitud. Sin embargo, la observación de predijo que no debe ser incluido en la estimación del modelo (porque esta es exactamente la situación en la que enfrentará a la hora de utilizar realmente su modelo). Así que tienen un nuevo paso 1) (la negrita es mi cambio sugerido).
1) teniendo en cuenta las características ya están en el modelo (o simplemente la intercepción en la primera iteración), seleccione la función que produce las mejores predicciones cuando se añade a la modelo.
Ahora usted necesita decidir
- lo que usted desea "lo mejor" para significar matemáticamente
- cómo dividir sus datos en "montaje" y "predecir" las partes
Voy a hacer una sugerencia para cada uno de ellos:
- Una intuitiva definición de un "buen" clasificador (y también computacionalmente simple) es la proporción de clasificaciones correctas. Sin embargo, usted puede tener algunos conocimientos adicionales específicos de las consecuencias de hacer una correcta o incorrecta clasificación (por ejemplo, predecir correctamente al $Y=1$ es el doble de importante que cuando se $Y=0$). En este caso, usted debe incorporar este conocimiento a la definición de "bueno". Pero para las ecuaciones en mi respuesta voy a utilizar $F=\frac{C}{C+I}$ el criterio de ($F$="fracción" o "frecuencia" $C$="correcto" $I$="incorrecto")
- Porque usted no tiene una gran cantidad de datos, necesitas tanto como sea posible para entrar en el modelo, por lo que una simple caída de una jacknife procedimiento puede ser utilizado. Deja de observación de la $1$, el ajuste del modelo con las observaciones $2,\dots,n$, y usar esto para predecir la observación $1$. A continuación te dejo la observación $2$, el ajuste del modelo con las observaciones $1,3,\dots,n$, y usar esto para predecir la observación $2$; y así sucesivamente hasta que cada observación ha sido "izquierda" y predijo. Entonces tendrás $n$ predicciones, y ahora se puede calcular el $F=\frac{C}{n}$, la fracción de predijo correctamente los valores para el modelo en particular. Subíndice esto para el modelo en particular $F_m$.
A continuación, calcular el $F_m$ para cada modelo de $(m=1,\dots,M)$, y elegir el modelo que predice el mejor $m=\text{argmax}_{m\in M} F_m$. Tenga en cuenta que la buena cosa sobre el método anterior es que usted no necesita preocuparse acerca de cómo muchas las variables en el modelo o cómo la correlación de estas variables (a menos que se hace imposible en realidad ajuste del modelo). Esto es debido a que el modelo se ajuste de forma independiente a la predicción, por lo que el sesgo debido a la sobre-ajuste, o de degradación debido a la inestabilidad numérica que se mostrará en la peor de las predicciones.
En un paso a paso la situación se hace de forma secuencial, de modo que en el $sth$ $M_s=p+1$ modelos a elegir entre: uno para la "extracción" de cada$X_{j}$, que está en el modelo, uno para "agregar" cada una de las $X_{j}$ que no está en el modelo, y uno para mantener el modelo sin cambios (de detener el procedimiento cuando se elija este modelo, y este es su último modelo). Si hay un empate, se necesita un criterio adicional para dividir a los ganadores (o usted podría permitir que el algoritmo de "rama" fuera, y ver donde cada "rama" termina, luego tomar la "rama" que tenía la mejor de las predicciones en su paso final)
Paso a paso puede ser riesgoso debido a que usted puede encontrar locales "máximos" en lugar de "global máximos", especialmente porque usted tiene un gran número de predictores (este es un gran "espacio" para optimizar más, y es probablemente multi-modal - lo que significa que no son muchos los "mejores" modelos)
Lo bueno de esto es que el modelo que usted elija tiene una clara, directamente pertinentes a la interpretación: El modelo que predice la mayor proporción de los resultados correctamente, una de las alternativas consideradas. Y tiene una clara medida de exactamente cómo de buena es tu clasificador binario (clasificado $100F$ % correctamente).
Creo que usted encontrará este un mucho más fácil para justificar su elección de modelo final a un no-estadístico, en lugar de tratar de explicar por qué el valor de p indica que el modelo es bueno.
Y para la prueba de hipótesis, se puede declarar cualquier efecto que se quedan en su modelo final como "significativo" en el que las relaciones contenidas en este modelo se pueda volver a producir los datos ($Y$) de la manera más eficaz.
Dos comentarios finales:
- También se puede utilizar esta maquinaria para decidir si el paso sabio es mejor que el de adelante selección (sólo añadir variables) o hacia atrás de selección (inicio de modelo completo, y sólo eliminar las variables).
- Usted puede adaptar el modelo completo (o cualquier otro modelo con $p\geq n$) por la "chapa" del modelo, lo que equivale a la adición de una pequeña cantidad a los elementos de la diagonal de la $X^TX$ matriz, o $X^TWX$ para GLMs antes de voltear a la hora de calcular su betas, para dar a $(X^TX+\lambda I)^{-1}X^TY$ o $(X^TWX+\lambda I)^{-1}X^TWY$. Básicamente, $\lambda$ limita la suma de los cuadrados de las betas a ser menor que un determinado valor, aumentando el valor de $\lambda$ disminuye esta restricción (que es un "buen" modelo de procedimiento de selección en su propio derecho, si se piensa).