Para la selección de predictores en multivariante de regresión lineal con $p$ adecuado predictores, ¿qué métodos están disponibles para encontrar un 'óptimo' subconjunto de los predictores sin explícitamente las pruebas de todos los $2^p$ subconjuntos? En 'Aplicado el Análisis de Supervivencia,' Hosmer & Lemeshow hacer referencia a Kuk del método, pero no puedo encontrar el original en papel. Puede alguien describir este método, o, aún mejor, la más moderna técnica? Uno puede asumir una distribución normal de los errores.
Respuestas
¿Demasiados anuncios?Este es un tema enorme. Como se mencionó anteriormente, Hastie, Tibshirani y Friedman dar una buena introducción en Ch3 de Elementos de Aprendizaje Estadístico.
Un par de puntos. 1) ¿Qué significa "mejor" o "óptima"? Lo mejor es, en un sentido, puede no serlo en otro. Dos criterios comunes son la exactitud de predicción (predicción de la variable de resultado) y la producción de imparcial de los estimadores de los coeficientes. Algunos métodos, como Lazo & Ridge Regresión producen inevitablemente sesgada coeficiente de estimadores.
2) La frase "mejor subconjuntos" en sí mismo puede ser utilizado en dos sentidos. Generalmente para referirse a la mejor subconjunto entre todos los predictores que optimiza algunos modelos de los criterios del edificio. Más específicamente, puede referirse a Furnival y Wilson algoritmo eficiente para encontrar un subconjunto entre moderado (~50) número de predictores lineales (Regresiones por pasos Agigantados. Technometrics, Vol. 16, Nº 4 (Nov., 1974), pp 499-51)
Nunca he oído hablar de Kuk del método, pero el tema candente en estos días es la L1 de minimización. La razón es que si usted utiliza un término de penalización del valor absoluto de los coeficientes de regresión, lo que no es importante, debe ir a cero.
Estas técnicas tienen algunos nombres graciosos: Lazo, LARS, Dantzig selector. Usted puede leer los documentos, pero es un buen lugar para comenzar es con los Elementos de Aprendizaje Estadístico, Capítulo 3.
Lo que he aprendido es que en primer lugar el uso de los Mejores Subconjuntos de Enfoque como una herramienta de detección, a continuación, el paso a paso de los procedimientos de selección puede ayudar a decidir finalmente que los modelos podría ser el mejor subconjunto de los modelos (en este momento el número de los modelos es bastante pequeño para manejar). Si uno de los modelos cumplen con el modelo de condiciones, hace un buen trabajo de resumir la tendencia en los datos, y lo más importante es que permite que usted para responder a su pregunta de investigación, a continuación, felicidades tu trabajo está hecho.