(Analítico) químico, me encuentro con ambos métodos: analítico de cálculo de las figuras de mérito [principalmente para univariante de regresión] así como la medición directa de predicción figuras de mérito.
El tren/de la prueba de la división para mí es el "hermano pequeño" de un experimento de validación para medir la calidad de predicción.
Respuesta larga:
Los típicos experimentos que hacemos por ejemplo, en la licenciatura de química física uso de regresión univariante. La propiedad de interés a menudo son los parámetros del modelo, por ejemplo, la constante de tiempo cuando la medición de la cinética de la reacción, pero a veces también las predicciones (por ejemplo, univariante de calibración lineal para predecir/medir algunos de valor de interés).
Estas situaciones son muy benigno en términos de no sobreajuste: por lo general hay una cómoda número de grados de libertad a la izquierda después de que todos los parámetros son estimados, y se utilizan para entrenar (como la educación) los estudiantes con los clásicos de la confianza o de la predicción del intervalo de cálculo, y los clásicos de propagación de errores - que fueron desarrollados para estas situaciones. Y aunque la situación no es del todo de libros de texto (por ejemplo, he estructura en mis datos, por ejemplo, en la cinética de que yo esperaría que los datos se describen mejor por la varianza entre ejecuciones de la reacción + variación entre las mediciones en una carrera que por una llanura uno de la varianza enfoque únicamente), puedo suelen tener suficiente corridas del experimento para lograr resultados útiles.
Sin embargo, en mi vida profesional, me tratan con datos espectroscópicos fija (normalmente de 100 a 1000, de varia $p$) y además con bastante limitado conjuntos independientes de los casos (muestras) $n$. A menudo,$n < p$, de modo que el uso de regularización de la cual no siempre es fácil decir cuántos grados de libertad, podemos utilizar, y además tratamos de, al menos, un poco para compensar la
pequeño $n$ mediante el uso de (gran) número de casi mediciones repetidas - lo cual nos deja con un desconocido efectiva $n$. Sin saber $n$ o $df$, los enfoques clásicos no funcionan. Pero como yo soy todo haciendo predicciones, siempre tengo una muy directa en la posibilidad de medir la capacidad predictiva de mi modelo: hago predicciones, y compararlos con los valores de referencia.
Este enfoque es realmente muy potente (aunque costoso debido al aumento de trabajo experimental), ya que me permite sonda de predicción de la calidad también para las condiciones que no fueron cubiertos en el entrenamiento y datos de calibración. E. g. Puedo medir cómo predictivo de la calidad se deteriora con la extrapolación (extrapolación incluye también, por ejemplo, las mediciones realizadas, digamos, un mes después de los datos de entrenamiento fue adquirida), puedo sonda de la resistencia contra los factores de confusión que espero ser importante, etc. En otras palabras, podemos estudiar el comportamiento de nuestro modelo, así como de estudiar el comportamiento de cualquier otro sistema: investigar ciertos puntos, o perturbar y ver el cambio en el sistema de respuesta, etc.
Yo diría que el más importante de predicción de la calidad (y el más alto es el riesgo de sobreajuste) más tendemos a preferir las mediciones directas de predicción de la calidad, más que analíticamente derivados de los números. (Por supuesto que podría haber incluido todos los factores de confusión también en el diseño de la formación experimento). Algunas áreas tales como el diagnóstico médico, la demanda de que la correcta validación de los estudios se realizan antes de que el modelo está "suelta" en pacientes reales.
El tren/de la prueba de la división (ya sea a cabo el* o validación cruzada o fuera de bootstrap o ...) lleva esto un paso más fácil. Guardamos el extra experimento y no extrapolar (sólo generalizar para predecir desconocido independiente de los casos de la misma distribución de los datos de entrenamiento). Me gustaría describir esto como una verificación del lugar de la validación (aunque la validación profundamente en la terminología aquí).
Esto es a menudo la manera pragmática a ir si no hay demasiado alta exigencia en la precisión de las figuras de mérito (que no necesitan ser conocidas de forma muy precisa, en una prueba-de-concepto de escenario).
* no hay que confundir un aleatorio simple dividida en tren y prueba con un diseño adecuado y el estudio para medir la calidad de predicción.