Supongamos que quiere ajustar un modelo de regresión. Tiene un conjunto de datos con múltiples atributos. ¿Cuáles serían las ventajas de segmentar el conjunto de datos y ajustar un modelo de regresión a cada uno de los segmentos?
Respuestas
¿Demasiados anuncios?Por "ajustando un modelo de regresión a cada uno de los segmentos" Supongo que te refieres a intentar hacer algo como una representación lineal a trozos de una serie temporal larga, como se describe en este documento: Segmentación de series temporales: Un estudio y un enfoque novedoso . Como se cita directamente del periódico:
...esta representación hace más eficiente el almacenamiento, la transmisión y el cálculo de los datos. Concretamente, en el contexto de la minería de datos, la representación lineal a trozos se ha utilizado para:
- Soporta la búsqueda exacta rápida de similares [13].
- Soportar nuevas medidas de distancia para series temporales, incluyendo "consultas difusas" [27, 28], consultas ponderadas [15], consultas multiresolución [31, 18], deformación temporal dinámica [22] y retroalimentación de relevancia [14].
- Apoyar la minería concurrente de texto y series temporales [17].
- Apoyar nuevos algoritmos de agrupación y clasificación [15].
- Apoyar la detección de puntos de cambio [29, 8].
En resumen, puede verse como un tipo de preprocesamiento de datos para poder entrenar algún tipo de algoritmo de aprendizaje automático con mayor facilidad/precisión (como su modelo de regresión) o, si lo prefiere, como un tipo de extracción de características.
Al hacer la "segmentación" y construir múltiples modelos para cada subconjunto de datos, usted está esencialmente aumentando la complejidad del modelo, y puede conducir a un exceso de ajuste (Por lo tanto, no se garantiza que tenga ventaja, pero también puede tener desventaja).
Le sugiero que compruebe el Compensación de sesgo-varianza y entender si te falta o sobra ajuste.
-
Si el ajuste es insuficiente, la "segmentación" y la construcción de múltiples modelos para cada subconjunto de datos, le ayudará. Aumentando la complejidad del modelo.
-
Si se sobreajusta, la "segmentación" y la construcción de múltiples modelos para cada subconjunto de datos, empeorará aún más las cosas.