15 votos

Cuerdo de regresión paso a paso?

Supongamos que queremos construir un clasificador binario. Tengo varios miles de características y sólo un par de 10s de las muestras. Desde el conocimiento de un dominio, tengo una buena razón para creer que la clase de la etiqueta puede ser predicho con exactitud utilizando sólo un par de características, pero no tengo idea de cual . También quiero que el final de la regla de decisión para ser fácil de interpretar/explicar, además, que requieren un pequeño número de características. Ciertos subconjuntos de mis características son altamente correlacionados, por lo que la selección de los más de predicción par de forma independiente no iba a funcionar. Yo también quiero ser capaz de manera significativa hacer pruebas de hipótesis en mi cuenta.

Es la siguiente regresión paso a paso el procedimiento razonable bajo las siguientes condiciones:

  1. Dadas las características ya existentes en el modelo (o simplemente la intercepción en la primera iteración), seleccione la función que produce el mayor registro de razón de verosimilitud cuando se añade a la modelo. El uso de la razón de verosimilitud chi-cuadrado para calcular un valor nominal valor de P para cada prueba de hipótesis se realiza en esta selección. El null aquí es que la adición de la variable adicional para el modelo no proporciona adicional de la capacidad predictiva. La alternativa es que hace aumentar predictivo abilityl

  2. El tratamiento de las hipótesis a prueba en el Paso 1 de cada iteración como una familia y calcular la tasa de falso descubrimiento para los más pequeños de P-valor (para la función seleccionada) el uso de algo como Benjamini-Hochberg.

  3. Goto 1, salvo que algunas de parada se cumplen los criterios.

  4. Informe de la falsa tasa de descubrimiento de las características individuales, pero no el valor de P para el modelo como un todo (ya que este va a ser masivamente inflado). Cada una de estas pruebas múltiples corregido los valores de P representa la significación estadística de que la función dada todas las características que anteriormente se agregan al modelo.

¿Hacer algo como esto en virtud de estas circunstancias con éxito evitar las típicas críticas de regresión paso a paso? Son el falso descubrimiento de tasas calculadas de esta manera razonable?

1voto

patfla Puntos 1

Para los fines de mi respuesta, voy a denotar la variable binaria de interés como $Y_i \text{ ;}(i=1,\dots,n)$ y los predictores $X_{ij} \text{ ;} (j=1,\dots,p)$ y asumir que $Y$ tiene valores de $Y=0$$Y=1$. También será conveniente definir $\gamma_m$ a indicar el modelo de $m \text{ ;}(m=1,..,M)$, de tal manera que $\gamma_m^TX_{ij}$ es igual a $X_{ij}$ si la j de la variable está en el mth modelo, y $0$ lo contrario.

Me gustaría hacer una modificación a su método, y dar una justificación. Usted está utilizando un clasificador modelo, lo que significa que usted desea predecir el valor de una variable categórica en el futuro - por lo que realmente debería ser la definición de una regla de predicción (dado un nuevo conjunto de predictores $X_{j}$, ¿cómo va a predecir si $Y=1$ o $Y=0$).

Así que yo sugeriría la evaluación de la predicción directamente, en lugar de la razón de verosimilitud. Sin embargo, la observación de predijo que no debe ser incluido en la estimación del modelo (porque esta es exactamente la situación en la que enfrentará a la hora de utilizar realmente su modelo). Así que tienen un nuevo paso 1) (la negrita es mi cambio sugerido). 1) teniendo en cuenta las características ya están en el modelo (o simplemente la intercepción en la primera iteración), seleccione la función que produce las mejores predicciones cuando se añade a la modelo.

Ahora usted necesita decidir

  1. lo que usted desea "lo mejor" para significar matemáticamente
  2. cómo dividir sus datos en "montaje" y "predecir" las partes

Voy a hacer una sugerencia para cada uno de ellos:

  1. Una intuitiva definición de un "buen" clasificador (y también computacionalmente simple) es la proporción de clasificaciones correctas. Sin embargo, usted puede tener algunos conocimientos adicionales específicos de las consecuencias de hacer una correcta o incorrecta clasificación (por ejemplo, predecir correctamente al $Y=1$ es el doble de importante que cuando se $Y=0$). En este caso, usted debe incorporar este conocimiento a la definición de "bueno". Pero para las ecuaciones en mi respuesta voy a utilizar $F=\frac{C}{C+I}$ el criterio de ($F$="fracción" o "frecuencia" $C$="correcto" $I$="incorrecto")
  2. Porque usted no tiene una gran cantidad de datos, necesitas tanto como sea posible para entrar en el modelo, por lo que una simple caída de una jacknife procedimiento puede ser utilizado. Deja de observación de la $1$, el ajuste del modelo con las observaciones $2,\dots,n$, y usar esto para predecir la observación $1$. A continuación te dejo la observación $2$, el ajuste del modelo con las observaciones $1,3,\dots,n$, y usar esto para predecir la observación $2$; y así sucesivamente hasta que cada observación ha sido "izquierda" y predijo. Entonces tendrás $n$ predicciones, y ahora se puede calcular el $F=\frac{C}{n}$, la fracción de predijo correctamente los valores para el modelo en particular. Subíndice esto para el modelo en particular $F_m$.

A continuación, calcular el $F_m$ para cada modelo de $(m=1,\dots,M)$, y elegir el modelo que predice el mejor $m=\text{argmax}_{m\in M} F_m$. Tenga en cuenta que la buena cosa sobre el método anterior es que usted no necesita preocuparse acerca de cómo muchas las variables en el modelo o cómo la correlación de estas variables (a menos que se hace imposible en realidad ajuste del modelo). Esto es debido a que el modelo se ajuste de forma independiente a la predicción, por lo que el sesgo debido a la sobre-ajuste, o de degradación debido a la inestabilidad numérica que se mostrará en la peor de las predicciones.

En un paso a paso la situación se hace de forma secuencial, de modo que en el $sth$ $M_s=p+1$ modelos a elegir entre: uno para la "extracción" de cada$X_{j}$, que está en el modelo, uno para "agregar" cada una de las $X_{j}$ que no está en el modelo, y uno para mantener el modelo sin cambios (de detener el procedimiento cuando se elija este modelo, y este es su último modelo). Si hay un empate, se necesita un criterio adicional para dividir a los ganadores (o usted podría permitir que el algoritmo de "rama" fuera, y ver donde cada "rama" termina, luego tomar la "rama" que tenía la mejor de las predicciones en su paso final)

Paso a paso puede ser riesgoso debido a que usted puede encontrar locales "máximos" en lugar de "global máximos", especialmente porque usted tiene un gran número de predictores (este es un gran "espacio" para optimizar más, y es probablemente multi-modal - lo que significa que no son muchos los "mejores" modelos)

Lo bueno de esto es que el modelo que usted elija tiene una clara, directamente pertinentes a la interpretación: El modelo que predice la mayor proporción de los resultados correctamente, una de las alternativas consideradas. Y tiene una clara medida de exactamente cómo de buena es tu clasificador binario (clasificado $100F$ % correctamente).

Creo que usted encontrará este un mucho más fácil para justificar su elección de modelo final a un no-estadístico, en lugar de tratar de explicar por qué el valor de p indica que el modelo es bueno.

Y para la prueba de hipótesis, se puede declarar cualquier efecto que se quedan en su modelo final como "significativo" en el que las relaciones contenidas en este modelo se pueda volver a producir los datos ($Y$) de la manera más eficaz.

Dos comentarios finales:

  1. También se puede utilizar esta maquinaria para decidir si el paso sabio es mejor que el de adelante selección (sólo añadir variables) o hacia atrás de selección (inicio de modelo completo, y sólo eliminar las variables).
  2. Usted puede adaptar el modelo completo (o cualquier otro modelo con $p\geq n$) por la "chapa" del modelo, lo que equivale a la adición de una pequeña cantidad a los elementos de la diagonal de la $X^TX$ matriz, o $X^TWX$ para GLMs antes de voltear a la hora de calcular su betas, para dar a $(X^TX+\lambda I)^{-1}X^TY$ o $(X^TWX+\lambda I)^{-1}X^TWY$. Básicamente, $\lambda$ limita la suma de los cuadrados de las betas a ser menor que un determinado valor, aumentando el valor de $\lambda$ disminuye esta restricción (que es un "buen" modelo de procedimiento de selección en su propio derecho, si se piensa).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X