Ha habido rumores durante años que Google utiliza todas las características disponibles en la construcción de sus algoritmos de predicción. Hasta la fecha, sin embargo, no renuncias, explicaciones o papeles blancos han surgido que aclarar y/o disputa este rumor. Ni siquiera sus patentes publicadas ayudar en la comprensión. Como resultado, nadie externo a Google sabe lo que están haciendo, a lo mejor de mi conocimiento.
Como el OP notas, uno de los mayores problemas en el modelado de predicción es la fusión entre el clásico de la prueba de hipótesis y cuidado de especificación del modelo vs pura de minería de datos. La formación clásica que puede llegar a ser muy dogmático acerca de la necesidad de "rigor" en el modelo de diseño y desarrollo. El hecho es que cuando se enfrentan con gran número de predictores candidatos y posibles múltiples destinos o variables dependientes, el clásico marco de ninguno de los dos trabajos, sostiene, ni proporciona una orientación útil. Numerosos trabajos recientes delinear este dilema de Chattopadhyay y Lipson brillante del papel de los Datos Sensacional: Descubrir al Acecho Orden en los Datos http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
El cuello de botella es que la mayoría de la comparación de los datos de los algoritmos de hoy confían
en una persona experta para especificar qué "características" de los datos que son relevantes
para la comparación. Aquí, se propone un nuevo principio para la estimación de la
la similitud entre las fuentes de datos arbitrarios de los arroyos, el uso de
ni el conocimiento ni el aprendizaje.
El año pasado AER papel en la Predicción de Problemas de la Política por Kleinberg, et al.https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 lo que hace el caso para la minería de datos y de predicción como herramientas útiles en la formulación de políticas económicas, citando ejemplos donde "la inferencia causal no es central, o incluso necesario."
El hecho es que el más grande, $64,000 pregunta es el cambio de rumbo en el pensamiento y los retos a los clásicos de la prueba de hipótesis marco implícito en, por ejemplo, esta Edge.org simposio sobre "obsoleto" en el pensamiento científico https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement así como este reciente artículo de Eric Beinhocker en la "nueva economía", que presenta algunas propuestas radicales para la integración de distintas disciplinas tales como la economía del comportamiento, la teoría de la complejidad, el modelo predictivo de desarrollo, de la red y de la teoría de cartera como una plataforma para la implementación de políticas y la adopción https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/ Huelga decir que estos problemas van mucho más allá de la mera preocupaciones económicas y sugieren que estamos sufriendo un cambio fundamental en los paradigmas científicos. El cambio de los puntos de vista son tan fundamentales como las distinciones entre reduccionista, la Navaja de Occam como la construcción de un modelo de vs Epicuro' expansiva del Principio de Plenitud o de múltiples explicaciones que a grandes rasgos dice que si varios hallazgos explicar algo, retener todos ellos ... https://en.wikipedia.org/wiki/Principle_of_plenitude
Por supuesto, a los chicos les gusta Beinhocker son totalmente libres de cargas con la práctica, en las trincheras preocupaciones con respecto a la aplicada, estadística soluciones a este paradigma en evolución. Wrt el meollo de la cuestión preguntas de ultra-alta dimensión de selección de variables, el OP es relativamente inespecífica respecto a enfoques viables para la construcción de modelos que se pueden aprovechar, por ejemplo, Lazo, LAR, paso a paso algoritmos o "elefante modelos" que utilizan toda la información disponible. La realidad es que, incluso con AWS o un superordenador, usted no puede utilizar toda la información disponible al mismo tiempo – no hay suficiente memoria RAM para cargar de todo. ¿Qué significa esto? Soluciones se han propuesto, por ejemplo, el de la NSF Descubrimiento en el Complejo o grandes conjuntos de datos: Estadística Común de Temas de "dividir y conquistar" algoritmos para la masiva extracción de datos, por ejemplo, Wang, et al papel, Un estudio de Métodos Estadísticos y de Computación para el Big Data http://arxiv.org/pdf/1502.07989.pdf así como Leskovec, et al libro de Minería de grandes conjuntos de datos http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
Ahora hay literalmente cientos, si no miles de artículos que se ocupan de diversos aspectos de estos desafíos, que proponen una amplia diferencia de los motores de analítica como su núcleo, a partir del "divide y vencerás" algoritmos; sin supervisión, "aprendizaje profundo" modelos; matriz aleatoria de la teoría aplicada a la masiva covarianza de la construcción; Bayesiano tensor de modelos clásicos, supervisada de regresión logística, y más. Quince años atrás, el debate se centra principalmente en las cuestiones relativas a los méritos relativos de los jerárquico Bayesiano de soluciones vs frecuentista finito de modelos de mezcla. En un documento que aborda estas cuestiones, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf llegó a la conclusión de que los diferentes enfoques teóricos, en la práctica, producido en gran parte los resultados equivalentes con la excepción de los problemas que involucran escasa y/o alta de datos dimensional donde HB modelos tenían la ventaja. Hoy en día con el advenimiento de D&C soluciones, cualquier arbitraje HB modelos pueden haber gozado históricamente, están siendo eliminados.
La lógica básica de estos D&C soluciones son, por lo general, las extensiones de Breiman del famoso bosque aleatorio técnica que depende de remuestreo bootstrap de observaciones y características. Breiman hizo su trabajo a finales de los 90 en una sola CPU cuando masivo de datos significaba una docena de conciertos y un par de miles de características. A día de hoy masivamente paralelo, multi-core de plataformas, es posible ejecutar los algoritmos de análisis de terabytes de datos contiene decenas de millones de las características de la construcción de millones de "RF" mini-modelos en un par de horas.
Hay cualquier número de preguntas importantes que sale de todo esto. Uno tiene que ver con una preocupación sobre una pérdida de precisión debido a la aproximación de la naturaleza de estas soluciones. Este tema ha sido abordado por Chen y Xie en su papel, Una División y Conquista de Enfoque para el Análisis de Extraordinariamente Grande de Datos http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf donde llegan a la conclusión de que las aproximaciones son indistintamente diferente de la "información completa" de los modelos.
Un segundo motivo de preocupación que, a lo mejor de mi conocimiento, no ha sido suficientemente abordado por la literatura, tiene que ver con lo que se hace con los resultados (es decir, los "parámetros") desde potencialmente millones de predicción mini-modelos una vez que las soluciones se han enrollado y resumida. En otras palabras, ¿cómo hace uno para ejecutar algo tan simple como "puntuación" nuevos datos con estos resultados? Son los mini-modelo de coeficientes para ser guardados y almacenados o ¿simplemente ejecutar la d&c del algoritmo en los nuevos datos?
En su libro, los Números de la Regla de Su Mundo, Kaiser Fung describe el dilema de Netflix que se enfrentan cuando se presenta con un conjunto de sólo 104 modelos entregados por los ganadores de su concurso. Los ganadores había, de hecho, minimizar el MSE vs todos los demás competidores, pero esto se tradujo en sólo una de varias decimal mejora en la precisión en los 5 puntos, tipo Likert, escala de calificación utilizada por su película de sistemas de recomendación. Además, el mantenimiento que se requiere para este conjunto de modelos cuestan mucho más que cualquier ahorro que se ve desde la "mejora" en la exactitud del modelo.
Entonces hay la cuestión de si "optimización" es posible incluso con la información de esta magnitud. Por ejemplo, Emmanuel Derman, el físico y financiero de ingeniero, en su libro Mi Vida como un Quant sugiere que la optimización es un mito insostenible, al menos en la ingeniería financiera.
Por último, cuestiones importantes en relación característica relativa importancia con la enorme cantidad de características aún no se han abordado.
No hay respuestas fáciles wrt preguntas acerca de la necesidad de selección de variables y los nuevos retos que se abrió por la corriente, Epicúreo soluciones quedan por resolver. La conclusión es que estamos todos los datos de los científicos ahora.