8 votos

Sobre conexión a propósito

Tendría sentido overfit un modelo a propósito?

Decir que tengo un caso de uso donde yo sé los datos no varían mucho respecto a los datos de entrenamiento.

Estoy pensando sobre el tráfico de predicción, donde el estado del tráfico sigue un conjunto fijo de patrones

  • mañana conmuta
  • de actividad nocturna
  • y así sucesivamente.

Estos patrones no cambiará mucho menos hay un aumento repentino de los usuarios de coches o de cambios importantes en la infraestructura vial. En este caso me gustaría que el modelo a ser tan sesgada como sea posible a los patrones de lo aprendido en los datos actuales, suponiendo que en el futuro van a ser muy similares.

9voto

lnathan Puntos 123

No, no tiene sentido para overfit sus datos.

El plazo de sobreajuste en realidad se refiere a una comparación entre los modelos: Si model_a un mejor desempeño en el dado datos de entrenamiento, pero peor fuera de la muestra de model_b, model_a es el sobreajuste. O en otras palabras: "no existe una alternativa mejor".

Si el estado del tráfico "no varían en absoluto con respecto a los datos de entrenamiento", entonces usted va a lograr los mejores resultados posibles por simplemente la memorización de los datos de entrenamiento (de nuevo, que no "sobreajuste").

Pero "los datos no varían mucho con respecto a los datos de entrenamiento" simplemente equivale a tener una razonable representación de el patrón subyacente. Esto es donde la máquina de aprendizaje funciona mejor (estacionarios del medio como Ferdi explicado).

4voto

Ryan Puntos 31

En General no tiene sentido para overfit sus datos a propósito. El problema es que es difícil para asegurarse de que los patrones también aparecen en la parte que no está incluido en los datos. Usted tiene que afirmar que hay un patrón en los datos. Una posibilidad de hacerlo, es el concepto de estacionariedad.


Lo que describes me recuerda a la de estacionariedad y ergodicity. Desde contextual lado/ lado del negocio que asumir que su tiempo de la serie sigue ciertos patrones. Estos patrones se llama la estacionariedad o ergodicity.

Definición de estacionariedad:

Un proceso estacionario es un proceso estocástico cuya incondicional distribución de probabilidad conjunta no cambia cuando se movió en el tiempo. Por lo tanto, los parámetros tales como la media y la varianza también no cambian con el tiempo.

Definición ergodicity:

Un ergodic proceso es un proceso relacionado o que denota sistemas o procesos con la propiedad de que, dado el tiempo suficiente, se incluyen o se dejan sentir en todos los puntos en un espacio determinado y pueden ser representados estadísticamente mediante razonablemente una gran selección de puntos.


Ahora, usted quiere asegurarse de que realmente sigue estos ciertos patrones. Usted puede hacer esto, por ejemplo, con la Unidad de la raíz de la prueba (como la de Dickey-Fuller) o la Estacionariedad de la prueba (como KPSS).

Definición de la Unidad de la raíz de la prueba:

$H_0:$ , Hay una unidad de la raíz.

$H_1:$ No hay ninguna unidad de la raíz. Esto implica, en la mayoría de los casos la estacionariedad.

Definición de la Estacionariedad de la prueba:

$H_0:$ Hay estacionariedad.

$H_1:$ No hay estacionariedad.

Leer más:

¿Cuál es la diferencia entre una prueba fija y una unidad de la raíz de la prueba?


Es el tiempo de la serie realmente sigue estos patrones de previsión y predicción será "más fácil desde un punto de vista estadístico", por ejemplo, se puede aplicar modelos econométricos para el pronóstico como ARIMA o TBATS. Mi respuesta se refiere a univariante y también multivariado, series de tiempo si usted tiene datos de corte transversal de estacionariedad y de la unidad de raíces no son conceptos comunes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X