13 votos

Cuando el uso de múltiples modelos para la predicción?

Esta es una pregunta bastante general:

Yo normalmente han encontrado que el uso de múltiples modelos diferentes supera a una modelo cuando se trata de predecir una serie de tiempo de la muestra. ¿Hay alguna buena documentos que demuestran que la combinación de los modelos de superar un modelo único? Hay de mejores prácticas en torno a la combinación de varios modelos?

Algunas referencias:

11voto

jdelator Puntos 1336

El último año del Premio de NetFlix de la competencia (2009), me parecía a mí han cambiado bruscamente el general en toda la comunidad de la presunción en contra de la combinación de múltiples algoritmos de aprendizaje.

Por ejemplo, mi entrenamiento formal (cursos de la universidad) y más tarde en el trabajo de supervisión/tutoría nos enseñó a evitar el algoritmo de combinación a menos que hubiera una razón explícita para hacerlo, "para mejorar la resolución de mi algoritmo actual", realmente no era considerada una buena razón. (Otros podrían tener una experiencia diferente-por supuesto que estoy inferir una comunidad amplia visión basada únicamente en mi propia experiencia, a pesar de mi experiencia en la codificación de mal desempeño ML algoritmos es sustancial.)

Aun así, hubo un par de "patrones" en el que la combinación de los algoritmos de una manera u otra fue aceptada, y realmente mejora el rendimiento. Para mí, el ejemplo más frecuente que participan algunos ML algoritmo configurado en modo de máquina (asignación de una clase de etiqueta para cada punto de datos) y en el que hubo más de dos clases (por lo general muchos más). Cuando, por ejemplo, el uso de un supervisada-el algoritmo de aprendizaje para resolver cuatro clases, y nos gustaría ver una excelente separación excepto digamos de Clase III en comparación con la Clase IV. Por lo tanto, fuera de los seis decisión límites, sólo uno resuelto por debajo del umbral requerido. Especialmente cuando las clases III y IV en su conjunto, representaron un pequeño por ciento de los datos, añadir un algoritmo optimizado sólo en la resolución de esas dos clases, era bastante común la solución a este problema analítico tipo. (Generalmente 'punto ciego' fue una limitación inherente de la primaria algoritmo--por ejemplo, fue un clasificador lineal y el III/IV de la decisión de la frontera no lineales.

En otras palabras, cuando tuvimos un algoritmo confiable adecuado para el ambiente de procesamiento (que generalmente era de transmisión de datos) y que se realiza dentro de la especificación, a excepción de un solo punto ciego que el que causó el error para resolver dos (o más) de las clases que representan una pequeña fracción de los datos, entonces siempre fue mejor 'bolt-on' otra especializada algoritmo para la compresión de lo que el algoritmo principal fue sistemáticamente falta.

Por último, sobre este tema, me gustaría recomendar el Capítulo 17, la Combinación de Varios Estudiantes, en Introducción a la Máquina de Aprendizaje, 2d, por Etem Alpaydin, MIT Press, 2010. Tenga en cuenta que esta es la segunda edición publicada hace un par de meses; la primera edición fue publicada en 2004 y dudo de que tiene la misma cobertura de este tema. (En realidad, yo recomiendo el texto entero, pero ese capítulo en particular, puesto que se relaciona con Shane Pregunta.)

En 25 páginas, el autor resume probablemente cada ML algoritmo de combinación de esquema de cuya utilidad ha sido demostrada en la literatura académica o en la práctica-por ejemplo, embolsado, el impulso, la mezcla de los expertos, apilados generalización, en cascada, de voto, de errores correcdting,....

8voto

Scott Cowan Puntos 156

A veces este tipo de modelos se denominan de un conjunto. Por ejemplo, esta página da una buena visión general de cómo funciona. También las referencias mencionadas son muy útiles.

4voto

Jon Galloway Puntos 28243

El seguimiento de la respuesta de Pedro en el conjunto de los métodos:

2voto

ESRogs Puntos 1381

El ejemplo más espectacular es el de Netflix reto, que realmente impulsó la fusión de popularidad.

2voto

Juriy Puntos 133

Aquí está un poco fuera de izquierda-campo de respuesta, que sólo toca el "las mejores prácticas en torno a la combinación de varios modelos" parte de su pregunta. Esto básicamente es exactamente mi tesis de honor, salvo que estoy lidiando con el complejo, altamente no-lineal de los modelos que exhiben el caos y el ruido de los modelos climáticos. Este no es probable que sea ampliamente aplicable a muchos campos, pero podría ser útil en la ecología o de la econometría.

Hasta hace relativamente poco tiempo en el modelado climático de la comunidad, los modelos fueron en gran parte acaba de destrozar juntos en un promedio no ponderado (generalmente después de la corrección del sesgo que impliquen extracción del modelo de media para todo o parte del período de la muestra). Esto es básicamente lo que el IPCC hizo para el 4º informe de evaluación (4AR), y los informes anteriores.

Esto es más o menos un ejemplo de la "verdad plus de error" la escuela del conjunto de la combinación, donde se tácita o explícitamente asumido que las series observacionales (por ejemplo. global de la temperatura, las precipitaciones locales, etc) es verdadera, y que si la toma de muestras suficientes (por ejemplo. modelo de carreras), el ruido en el modelo se ejecuta cancelar (ver (1)).

Más recientemente, los métodos de combinación de modelos basados en el rendimiento de ponderación se han utilizado. Debido a que los modelos climáticos son tan ruidosas, y tiene muchas variables y parámetros, la única manera de evaluar el desempeño (que yo sepa) están tomando la covarianza, o tomando el MSE entre la salida del modelo y el tiempo observado de la serie. Los modelos se pueden combinar luego ponderando la media basándose en que medida. Hay una buena descripción de este en (2).

Una hipótesis detrás de este método de combinación de simulaciones es la suposición de que todos los modelos están razonablemente independiente - si algunos eran altamente dependientes, que sería el sesgo de la media. Esta suposición fue razonablemente justa para el conjunto de datos usado para 4AR (CMIP3, como este conjunto de datos se compone de algunos de los modelos de muchos grupos de elaboración de modelos (por otro lado, el código se comparte en la modelización de la comunidad, por lo que todavía puede haber una cierta interdependencia. Para una mirada interesante a este respecto, consulte el apartado 3). El conjunto de datos para el próximo informe de evaluación, CMIP5, no tiene esto algo fortuito atributo - algunos equipos de modelización será la presentación de un par de carreras, mientras que algunos será la presentación de cientos de personas. Los conjuntos procedentes de los diferentes equipos que pueden ser producidos por la condición inicial peturbation, o por cambios en el modelo de la física y de la parametrisation. También, esta super conjunto no es muestreado en cuenta de manera sistemática - es sólo que nunca trae aceptación de datos (dentro de lo razonable). Esto es conocido en el campo como un "conjunto de oportunidades". Hay una buena posibilidad de que el uso de una ponderada media en un conjunto que va a git que algunos de los principales sesgo hacia los modelos con más carreras (ya que a pesar de que hay cientos de carreras, hay probablemente un número mucho menor de la verdad independiente que se ejecuta).

Mi supervisor tiene un papel en revisión en el momento en el que describe un proceso de modelo de combinación que implican el rendimiento Y la independencia de ponderación. Hay una conferencia de papel abstracto disponibles (4), voy a publicar el enlace para el papel cuando se publicó (proceso lento, no contenga la respiración). Básicamente, en este trabajo se describe un proceso que implica la adopción de la covarianza de los errores del modelo (modelo-obs), y la ponderación de los modelos que tienen una alta covarianza con todos los demás modelos (es decir. modelos altamente dependiente de los errores). El modelo de la varianza de error se calcula como bien, y se utiliza como el rendimiento de ponderación componente.

También vale la pena señalar que los modelos climáticos es, obviamente, enormemente afectado por los vaivenes de la elaboración de modelos numéricos en general. Hay una cosa que se llama "risa de la prueba" - si usted termina con un modelo de ejecución que implica que el promedio global de la temperatura de +20°C para 2050, se acaba de lanzar, porque claramente no es físicamente relevante. Obviamente este tipo de prueba es bastante subjetivo. No he requiere todavía, pero espero en el futuro cercano.

Ese es mi entendimiento de que el modelo de estado combinación en mi campo en el momento. Obviamente todavía estoy aprendiendo, así que si encontré nada especial, voy a volver y actualización de esta respuesta.

(1) Tebaldi, C. & Knutti, R., 2007. El uso de la multi-modelo conjunto en probabilístico de las proyecciones del clima. Philosophical transactions de la Royal Society Un: Matemática, Física y Ciencias de la Ingeniería, 365(1857), pp 2053–2075.

(2) Knutti, R. et al., 2010. Reunión de Expertos del IPCC sobre la Evaluación y la Combinación de Múltiples Modelo de Proyecciones del Clima.

(3) Masson, D. & Knutti, R., 2011. Modelo climático de la genealogía. Geophys. Res. Lett, 38(8), p.L08703.

(4) Abramowitz, G. & Obispo, C., 2010. La definición y ponderación para el modelo de la dependencia en el conjunto de predicción. En el Otoño de la AGU, los Resúmenes de las Reuniones. p. 07.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X