85 votos

¿Selección de variables para el modelado predictivo necesario en 2016?

Esta pregunta se ha hecho en CV algunos años atrás, parece que vale la pena volver a publicar en la luz de 1) orden de magnitud mejor tecnología de la computación (por ejemplo, parallel computing, HPC, etc) y 2) las nuevas técnicas, por ejemplo, [3].

Primero, un poco de contexto. Supongamos que el objetivo no es la prueba de hipótesis, no efecto de la estimación, pero la predicción de las naciones unidas-visto de prueba. Así que, no se le da un peso a cualquier interpretables beneficio. Segundo, digamos que no puede descartar la pertinencia de cualquier predictor sobre la materia objeto de examen, es decir. todos ellos parecen plausibles de forma individual o en combinación con otros predictores. En tercer lugar, está confrontar con (cientos de millones de predictores. Cuarto, digamos que usted tiene acceso a AWS con un presupuesto ilimitado, por lo que el poder de computación no es una restricción.

La costumbre reaons para la selección de variables son: 1) eficiencia; más rápido de ajuste de un modelo más pequeño y más barato para cobrar menos predictores, 2) su interpretación; conocer el "importante" variables nos da una idea de que el proceso subyacente [1].

Ahora es ampliamente conocido que muchos de selección de variables métodos son ineficaces y, a menudo francamente peligroso (por ejemplo, hacia adelante de regresión paso a paso) [2].

En segundo lugar, si el modelo seleccionado es bueno, no hay necesidad de cortar hacia abajo en la lista de los predictores. El modelo debe hacerlo para usted. Un buen ejemplo es el lazo, el cual asigna un coeficiente cero para todas las variables irrelevantes.

Soy consciente de que algunas personas defienden el uso de un "elefante" del modelo, es decir,. mezcle todos los posibles predictores en el ajuste y correr con ella [2].

Hay ninguna razón fundamental para hacer de selección de variables si el objetivo es la precisión predictiva?

[1] Reunanen, J. (2003). El sobreajuste en la realización de comparaciones entre métodos de selección de variables. El Diario de Aprendizaje de la Máquina de la Investigación, 3, 1371-1382.

[2] Harrell, F. (2015). Modelos de regresión de estrategias: con aplicaciones a modelos lineales, la logística y la regresión ordinal, y el análisis de supervivencia. Springer.

[3] Taylor, J., & Tibshirani, R. J. (2015). Aprendizaje estadístico y selectivo de la inferencia. Actas de la Academia Nacional de Ciencias, 112(25), 7629-7634.

[4] Zhou, J., Foster, D., Stine, R., & Ungar, L. (2005, Agosto). Transmisión de selección de la función de uso de alfa-invertir. En Actas de la xi ACM SIGKDD conferencia internacional sobre el descubrimiento de Conocimiento en la minería de datos (p 384-393). ACM.

45voto

DJohnson Puntos 1347

Ha habido rumores durante años que Google utiliza todas las características disponibles en la construcción de sus algoritmos de predicción. Hasta la fecha, sin embargo, no renuncias, explicaciones o papeles blancos han surgido que aclarar y/o disputa este rumor. Ni siquiera sus patentes publicadas ayudar en la comprensión. Como resultado, nadie externo a Google sabe lo que están haciendo, a lo mejor de mi conocimiento.

Como el OP notas, uno de los mayores problemas en el modelado de predicción es la fusión entre el clásico de la prueba de hipótesis y cuidado de especificación del modelo vs pura de minería de datos. La formación clásica que puede llegar a ser muy dogmático acerca de la necesidad de "rigor" en el modelo de diseño y desarrollo. El hecho es que cuando se enfrentan con gran número de predictores candidatos y posibles múltiples destinos o variables dependientes, el clásico marco de ninguno de los dos trabajos, sostiene, ni proporciona una orientación útil. Numerosos trabajos recientes delinear este dilema de Chattopadhyay y Lipson brillante del papel de los Datos Sensacional: Descubrir al Acecho Orden en los Datos http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

El cuello de botella es que la mayoría de la comparación de los datos de los algoritmos de hoy confían en una persona experta para especificar qué "características" de los datos que son relevantes para la comparación. Aquí, se propone un nuevo principio para la estimación de la la similitud entre las fuentes de datos arbitrarios de los arroyos, el uso de ni el conocimiento ni el aprendizaje.

El año pasado AER papel en la Predicción de Problemas de la Política por Kleinberg, et al.https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 lo que hace el caso para la minería de datos y de predicción como herramientas útiles en la formulación de políticas económicas, citando ejemplos donde "la inferencia causal no es central, o incluso necesario."

El hecho es que el más grande, $64,000 pregunta es el cambio de rumbo en el pensamiento y los retos a los clásicos de la prueba de hipótesis marco implícito en, por ejemplo, esta Edge.org simposio sobre "obsoleto" en el pensamiento científico https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement así como este reciente artículo de Eric Beinhocker en la "nueva economía", que presenta algunas propuestas radicales para la integración de distintas disciplinas tales como la economía del comportamiento, la teoría de la complejidad, el modelo predictivo de desarrollo, de la red y de la teoría de cartera como una plataforma para la implementación de políticas y la adopción https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/ Huelga decir que estos problemas van mucho más allá de la mera preocupaciones económicas y sugieren que estamos sufriendo un cambio fundamental en los paradigmas científicos. El cambio de los puntos de vista son tan fundamentales como las distinciones entre reduccionista, la Navaja de Occam como la construcción de un modelo de vs Epicuro' expansiva del Principio de Plenitud o de múltiples explicaciones que a grandes rasgos dice que si varios hallazgos explicar algo, retener todos ellos ... https://en.wikipedia.org/wiki/Principle_of_plenitude

Por supuesto, a los chicos les gusta Beinhocker son totalmente libres de cargas con la práctica, en las trincheras preocupaciones con respecto a la aplicada, estadística soluciones a este paradigma en evolución. Wrt el meollo de la cuestión preguntas de ultra-alta dimensión de selección de variables, el OP es relativamente inespecífica respecto a enfoques viables para la construcción de modelos que se pueden aprovechar, por ejemplo, Lazo, LAR, paso a paso algoritmos o "elefante modelos" que utilizan toda la información disponible. La realidad es que, incluso con AWS o un superordenador, usted no puede utilizar toda la información disponible al mismo tiempo – no hay suficiente memoria RAM para cargar de todo. ¿Qué significa esto? Soluciones se han propuesto, por ejemplo, el de la NSF Descubrimiento en el Complejo o grandes conjuntos de datos: Estadística Común de Temas de "dividir y conquistar" algoritmos para la masiva extracción de datos, por ejemplo, Wang, et al papel, Un estudio de Métodos Estadísticos y de Computación para el Big Data http://arxiv.org/pdf/1502.07989.pdf así como Leskovec, et al libro de Minería de grandes conjuntos de datos http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets

Ahora hay literalmente cientos, si no miles de artículos que se ocupan de diversos aspectos de estos desafíos, que proponen una amplia diferencia de los motores de analítica como su núcleo, a partir del "divide y vencerás" algoritmos; sin supervisión, "aprendizaje profundo" modelos; matriz aleatoria de la teoría aplicada a la masiva covarianza de la construcción; Bayesiano tensor de modelos clásicos, supervisada de regresión logística, y más. Quince años atrás, el debate se centra principalmente en las cuestiones relativas a los méritos relativos de los jerárquico Bayesiano de soluciones vs frecuentista finito de modelos de mezcla. En un documento que aborda estas cuestiones, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf llegó a la conclusión de que los diferentes enfoques teóricos, en la práctica, producido en gran parte los resultados equivalentes con la excepción de los problemas que involucran escasa y/o alta de datos dimensional donde HB modelos tenían la ventaja. Hoy en día con el advenimiento de D&C soluciones, cualquier arbitraje HB modelos pueden haber gozado históricamente, están siendo eliminados.

La lógica básica de estos D&C soluciones son, por lo general, las extensiones de Breiman del famoso bosque aleatorio técnica que depende de remuestreo bootstrap de observaciones y características. Breiman hizo su trabajo a finales de los 90 en una sola CPU cuando masivo de datos significaba una docena de conciertos y un par de miles de características. A día de hoy masivamente paralelo, multi-core de plataformas, es posible ejecutar los algoritmos de análisis de terabytes de datos contiene decenas de millones de las características de la construcción de millones de "RF" mini-modelos en un par de horas.

Hay cualquier número de preguntas importantes que sale de todo esto. Uno tiene que ver con una preocupación sobre una pérdida de precisión debido a la aproximación de la naturaleza de estas soluciones. Este tema ha sido abordado por Chen y Xie en su papel, Una División y Conquista de Enfoque para el Análisis de Extraordinariamente Grande de Datos http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf donde llegan a la conclusión de que las aproximaciones son indistintamente diferente de la "información completa" de los modelos.

Un segundo motivo de preocupación que, a lo mejor de mi conocimiento, no ha sido suficientemente abordado por la literatura, tiene que ver con lo que se hace con los resultados (es decir, los "parámetros") desde potencialmente millones de predicción mini-modelos una vez que las soluciones se han enrollado y resumida. En otras palabras, ¿cómo hace uno para ejecutar algo tan simple como "puntuación" nuevos datos con estos resultados? Son los mini-modelo de coeficientes para ser guardados y almacenados o ¿simplemente ejecutar la d&c del algoritmo en los nuevos datos?

En su libro, los Números de la Regla de Su Mundo, Kaiser Fung describe el dilema de Netflix que se enfrentan cuando se presenta con un conjunto de sólo 104 modelos entregados por los ganadores de su concurso. Los ganadores había, de hecho, minimizar el MSE vs todos los demás competidores, pero esto se tradujo en sólo una de varias decimal mejora en la precisión en los 5 puntos, tipo Likert, escala de calificación utilizada por su película de sistemas de recomendación. Además, el mantenimiento que se requiere para este conjunto de modelos cuestan mucho más que cualquier ahorro que se ve desde la "mejora" en la exactitud del modelo.

Entonces hay la cuestión de si "optimización" es posible incluso con la información de esta magnitud. Por ejemplo, Emmanuel Derman, el físico y financiero de ingeniero, en su libro Mi Vida como un Quant sugiere que la optimización es un mito insostenible, al menos en la ingeniería financiera.

Por último, cuestiones importantes en relación característica relativa importancia con la enorme cantidad de características aún no se han abordado.

No hay respuestas fáciles wrt preguntas acerca de la necesidad de selección de variables y los nuevos retos que se abrió por la corriente, Epicúreo soluciones quedan por resolver. La conclusión es que estamos todos los datos de los científicos ahora.

15voto

patfla Puntos 1

En términos de predicción, es probable que necesite para pensar la cuestión de cómo rápidamente el modelo aprende las características importantes. Incluso el pensamiento de la OPERACIÓN, esto le dará algo así como el modelo de selección dada la cantidad suficiente de datos. Pero sabemos que no convergen a esta solución lo suficientemente rápido - por lo que la búsqueda de algo mejor.

La mayoría de los métodos son hacer una suposición sobre el tipo de betas/coeficientes que se van a encontrar (como una distribución previa en un modelo bayesiano). Funcionan mejor cuando estas suposiciones se mantenga. Por ejemplo, ridge/lazo de regresión asume la mayoría de las betas están en la misma escala con la mayoría de los cerca de cero. No funciona tan bien para las "agujas en un pajar" regresiones donde la mayoría de los betas son cero, y algunas betas son muy grandes (es decir, las escalas son muy diferentes). La selección de características puede funcionar mejor aquí - lazo puede quedar atrapado en reducir el ruido y salir de la señal de la virgen. La selección de características es más inestable, un efecto que es "señal" o "ruido".

En términos de decidir - se debe tener una idea de qué tipo de variables predictoras que usted tiene. Usted tiene algunos realmente buenos? O de todas las variables es débil? Esto impulsará el perfil de las betas que usted tendrá. Y que pena/de la selección de los métodos que usa (caballos de carreras y todo eso).

La selección de características no está mal, pero algunas de las mayores aproximaciones debido a restricciones computacionales no son buenas (paso a paso, hacia adelante). Modelo de un promedio de uso de la selección de características (todos los 1 var modelos, 2 var modelos, etc ponderado por su rendimiento) va a hacer un buen trabajo en la predicción. Pero estos son, esencialmente, la penalización de las betas a través de la importancia que se da a los modelos con la variable excluida - aunque no directamente - y no en una optimización convexa problema especie de camino.

12voto

asparagino Puntos 438

Te doy la perspectiva de la industria.

Las industrias no les gusta gastar dinero en sensores y sistemas de control y que no saben cuánto van a beneficiar.

Por ejemplo, yo no quiero nombre, así que imagínate un componente con 10 sensores de recolección de datos cada minuto. El propietario de los activos se vuelve hacia mí y me pregunta cómo puede predecir el comportamiento de mi componente con estos datos de 10 sensores? Luego de realizar un análisis de costo-beneficio.

Luego, tienen el mismo componente con 20 sensores, me preguntan, de nuevo, ¿cómo se puede predecir el comportamiento de mi componente con estos datos desde el 20 de sensores? Que realizar otro análisis de costo-beneficio.

En cada uno de estos casos, se pueden comparar los beneficios con los costes de inversión, debido a que los sensores de las instalaciones. (Esto no es sólo la adición de un $10 sensor a un componente. Una gran cantidad de factores que juegan un papel). Aquí es donde una selección de variables de análisis puede ser útil.

10voto

Nathan Long Puntos 30303

Como parte de un algoritmo para el aprendizaje de una puramente modelo predictivo, selección de variables no es necesariamente malo desde un punto de vista de rendimiento tampoco es automáticamente peligroso. Sin embargo, hay algunas cuestiones que uno debe ser consciente de.

Para hacer la pregunta un poco más concreto, vamos a considerar la regresión lineal problema con $$E(Y_i \mid X_i) = X_i^T \beta$$ para $i = 1, \ldots, N$, e $X_i$ $\beta$ $p$- dimensiones de los vectores de variables y parámetros, respectivamente. El objetivo es encontrar una buena aproximación de la función $$x \mapsto E(Y \mid X = x) = X^T \beta,$$ cual es la predicción de $Y$$X = x$. Esto puede lograrse mediante la estimación de $\beta$ el uso de combinaciones de selección de variables y la minimización de una función de pérdida con o sin penalización. Modelo de promedio o Bayesiano métodos también pueden ser utilizados, pero vamos a centrarnos en una sola predicciones del modelo.

La selección paso a paso algoritmos como hacia adelante y hacia atrás de selección de variables puede ser visto como aproximado intentos para resolver un mejor selección de subconjuntos problema, que es computacionalmente difícil (tan duro que las mejoras de potencia computacional importa poco). El interés está en encontrar para cada una de las $k = 1, \ldots, \min(N, p)$ el mejor (o al menos una buena) modelo con $k$ variables. Posteriormente, se puede optimizar más de $k$.

El peligro con este tipo de variable procedimiento de selección es que muchos de los resultados de distribución no son válidos condicionalmente en la selección de variables. Esto vale para las pruebas estándar y los intervalos de confianza, y es uno de los problemas que Harrell [2] está advirtiendo acerca de. Breiman también advirtió acerca del modelo de selección basado en, por ejemplo, Mallows' $C_p$ en El Poco Bootstrap .... Mallows' $C_p$ o AIC para lo que importa, ¿ no cuenta para la selección del modelo, y se le dará excesivamente optimista de los errores de predicción.

Sin embargo, la validación cruzada puede ser usado para estimar el error de predicción y para la selección de $k$, y la selección de variables se puede lograr un buen equilibrio entre sesgo y varianza. Esto es particularmente cierto si $\beta$ tiene un par de grandes coordina con el resto de cerca de cero $-$ @probabilityislogic menciona.

La contracción de los métodos tales como la regresión ridge y el lazo puede lograr un buen equilibrio entre el sesgo y la varianza sin el expreso de selección de variables. Sin embargo, como el OP menciona, lazo hace implícito de selección de variables. Realmente no es el modelo sino el método para ajustar el modelo de selección de variables. Desde esa perspectiva, la selección de variables (implícito o explícito) es simplemente parte de la metodología para el ajuste del modelo a los datos, y debe ser considerado como tal.

Algoritmos para calcular el estimador lasso pueden beneficiarse de selección de variables (o de análisis). En Aprendizaje Estadístico con Dispersión: El Lazo y Generalizaciones, la Sección 5.10, se describe cómo la detección, como el implementado en glmnet, es útil. Esto puede llevar a sustancialmente más rápido el cálculo del estimador lasso.

Una experiencia personal, es a partir de un ejemplo en donde la selección de variables hecho posible un ajuste más complicado (modelo generalizado de modelo aditivo) el uso de las variables seleccionadas. La validación cruzada de los resultados indicó que este modelo fue superior a un número de alternativas $-$ si no a un bosque aleatorio. Si gamsel había sido alrededor de $-$ que integra modelos aditivos generalizados con la variable de selección de $-$ me podría haber considerado tratando de que fuera así

En resumen diré que la selección de variables (de una forma o de otra) es y seguirá siendo útil $-$ incluso puramente predictivo a los efectos de $-$ como una forma de controlar el sesgo de la varianza en equilibrio. Si no por otras razones, entonces, al menos, porque más complicado modelos pueden no ser capaces de manejar un gran número de variables de salida-de-la-caja. Sin embargo, a medida que pasa el tiempo vamos a ver, naturalmente, la evolución como gamsel que integran la selección de variables en la metodología de estimación.

Es, por supuesto, siempre es esencial que consideramos de selección de variables como parte del método de estimación. El peligro es creer que la selección de variables se realiza como un oráculo y se identifica el conjunto correcto de las variables. Si creemos que y proceder como si las variables no fueron seleccionados con base en los datos, entonces se corre el riesgo de cometer errores.

4voto

smartappers Puntos 11

En varios casos conocidos, sí, selección de variables, no es necesario. Aprendizaje profundo se ha vuelto un poco sobrevalorada precisamente por esta razón.

Por ejemplo, cuando una complicada red neuronal (http://cs231n.github.io/convolutional-networks/) intenta predecir si un centrado de la imagen contiene un rostro humano, las esquinas de la imagen tienden a tener un mínimo de valor predictivo. Tradicionales de modelado y selección de variables tendría el modelador de eliminar la esquina píxeles como predictores; sin embargo, la intrincada red neuronal es lo suficientemente inteligente como para esencialmente descartar estos predictores de forma automática. Esto es cierto para la mayoría de profundo aprendizaje de modelos que tratan de predecir la presencia de algún objeto en una imagen (por ejemplo, auto drivings coches "predecir" las marcas de carril, obstáculos y otros coches en los marcos de a bordo de streaming de vídeo).

Aprendizaje profundo es probablemente una exageración para un montón de problemas tradicionales, tales como, donde los conjuntos de datos pequeños o donde el dominio de conocimiento es abundante, tan tradicional de selección de variables probablemente seguirá siendo relevante para un largo tiempo, al menos en algunas áreas. No obstante, el aprendizaje profundo es grande cuando se quiere lanzar juntos una "muy buena" solución con la mínima intervención humana. Puede que me lleve muchas horas a la artesanía y seleccione predictores para reconocer manuscrita dígitos en las imágenes, pero con una complicada red neuronal y un cero a la selección de variables, que puede tener un estado-of-the-art de modelo en menos de 20 minutos usando Google TensorFlow (https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X