15 votos

¿Es dividir los datos en prueba y sistemas de formación puramente "stats" algo?

Soy un estudiante de física el estudio de aprendizaje automático / datos de la ciencia, así que no quiero decir para esta pregunta para iniciar cualquier conflicto :) sin Embargo, una gran parte de toda la física programa de licenciatura es hacer labs/experimentos, lo que significa una gran cantidad de procesamiento de datos y análisis estadístico. Sin embargo, me doy cuenta de una marcada diferencia entre la forma en que los físicos de acuerdo con los datos y la forma en que mi ciencia de datos / estadística de aprendizaje libros de acuerdo con los datos.

La diferencia clave es que al tratar de realizar regresiones de datos obtenidos a partir de experimentos de física, los algoritmos de regresión, que se aplican a la TOTALIDAD del conjunto de datos, no hay absolutamente ninguna división en conjuntos de pruebas y entrenamiento. En el mundo de la física, la R^2, o algún tipo de pseudo-R^2 es calculado por el modelo basado en el conjunto de datos completo. En las estadísticas mundiales, los datos casi siempre se divide en 80-20, 70-30, etc... y, a continuación, el modelo se evalúa el conjunto de datos de prueba.

Hay también algunos de los principales experimentos de física (ATLAS, BICEP2, etc...) que nunca esta de datos de la división, así que me pregunto por qué no hay una como un acérrimo diferencia entre la forma en que los físicos/experimentadores hacer estadísticas y la manera en que los datos científicos de la estadística.

Gracias.

Thomas

9voto

Cliff AB Puntos 3213

No todos los procedimientos estadísticos dividido en formación/datos de la prueba, también llamada "validación cruzada" (aunque todo el procedimiento implica un poco más que eso).

Más bien, esta es una técnica en la que específicamente se utiliza para calcular hacia fuera-de-error de muestreo; es decir, ¿qué tan bien el modelo predecir nuevos resultados mediante el uso de un nuevo conjunto de datos? Esto se convierte en un tema muy importante cuando tienes, por ejemplo, un gran número de factores en relación con el número de muestras del conjunto de datos. En tales casos, es muy fácil construir un modelo con un gran error de muestreo, pero terrible de error de muestreo (llamada "montaje"). En los casos en que ambos tienen un gran número de predictores y un gran número de muestras de validación cruzada es una herramienta necesaria para ayudar a evaluar qué tan bien el modelo se comportan a la hora de predecir nuevos datos. Es también una herramienta importante a la hora de elegir entre los diferentes modelos de predicción.

En otra nota, la validación cruzada es casi siempre sólo se utiliza cuando se intenta construir un predictiva del modelo. En general, no es muy útil para los modelos cuando usted está tratando de estimar el efecto de algunos tratamientos. Por ejemplo, si usted está comparando la distribución de la resistencia a la tensión entre los materiales a y B ("tratamiento" de ser el tipo de material), de la validación cruzada no será necesario; mientras que esperamos que nuestra estimación del efecto del tratamiento se generaliza de la muestra, para la mayoría de los problemas clásicos de la teoría estadística puede responder a esta (es decir, "los errores estándar" de estimaciones), más precisamente de la validación cruzada. Por desgracia, la clásica metodología estadística1 para los errores estándar no se mantiene en el caso de sobreajuste. La validación cruzada a menudo lo hace mucho mejor en ese caso.

Por otro lado, si usted está tratando de predecir cuando un material se rompa basada en 10.000 mide las variables que usted lance en una máquina modelo de aprendizaje basado en 100.000 observaciones, usted tendrá un montón de problemas para la construcción de un gran modelo sin validación cruzada!

Supongo que en muchos de los experimentos de física de hecho, se están generalmente interesados en la estimación de los efectos. En esos casos, hay muy poca necesidad de la validación cruzada.

1se podría argumentar que Bayesiano métodos informativos de los priores son un clásico de la metodología estadística que se ocupa de sobreajuste. Pero esa es otra discusión.

Nota: mientras que la validación cruzada apareció por primera vez en las estadísticas de la literatura, y es muy utilizado por personas que se llaman a sí mismos los estadísticos, se ha convertido en una fundamental herramienta necesaria en la máquina de la comunidad de aprendizaje. Un montón de estadísticas modelos funciona bien sin el uso de la validación cruzada, pero casi todos los modelos que se consideran "de la máquina de aprendizaje de modelos predictivos de la" necesidad de validación cruzada, ya que a menudo requiere la selección de los parámetros de ajuste, que es casi imposible prescindir de la validación cruzada.

3voto

cbeleites Puntos 12461

(Analítico) químico, me encuentro con ambos métodos: analítico de cálculo de las figuras de mérito [principalmente para univariante de regresión] así como la medición directa de predicción figuras de mérito.
El tren/de la prueba de la división para mí es el "hermano pequeño" de un experimento de validación para medir la calidad de predicción.


Respuesta larga:

Los típicos experimentos que hacemos por ejemplo, en la licenciatura de química física uso de regresión univariante. La propiedad de interés a menudo son los parámetros del modelo, por ejemplo, la constante de tiempo cuando la medición de la cinética de la reacción, pero a veces también las predicciones (por ejemplo, univariante de calibración lineal para predecir/medir algunos de valor de interés).
Estas situaciones son muy benigno en términos de no sobreajuste: por lo general hay una cómoda número de grados de libertad a la izquierda después de que todos los parámetros son estimados, y se utilizan para entrenar (como la educación) los estudiantes con los clásicos de la confianza o de la predicción del intervalo de cálculo, y los clásicos de propagación de errores - que fueron desarrollados para estas situaciones. Y aunque la situación no es del todo de libros de texto (por ejemplo, he estructura en mis datos, por ejemplo, en la cinética de que yo esperaría que los datos se describen mejor por la varianza entre ejecuciones de la reacción + variación entre las mediciones en una carrera que por una llanura uno de la varianza enfoque únicamente), puedo suelen tener suficiente corridas del experimento para lograr resultados útiles.

Sin embargo, en mi vida profesional, me tratan con datos espectroscópicos fija (normalmente de 100 a 1000, de varia $p$) y además con bastante limitado conjuntos independientes de los casos (muestras) $n$. A menudo,$n < p$, de modo que el uso de regularización de la cual no siempre es fácil decir cuántos grados de libertad, podemos utilizar, y además tratamos de, al menos, un poco para compensar la pequeño $n$ mediante el uso de (gran) número de casi mediciones repetidas - lo cual nos deja con un desconocido efectiva $n$. Sin saber $n$ o $df$, los enfoques clásicos no funcionan. Pero como yo soy todo haciendo predicciones, siempre tengo una muy directa en la posibilidad de medir la capacidad predictiva de mi modelo: hago predicciones, y compararlos con los valores de referencia.

Este enfoque es realmente muy potente (aunque costoso debido al aumento de trabajo experimental), ya que me permite sonda de predicción de la calidad también para las condiciones que no fueron cubiertos en el entrenamiento y datos de calibración. E. g. Puedo medir cómo predictivo de la calidad se deteriora con la extrapolación (extrapolación incluye también, por ejemplo, las mediciones realizadas, digamos, un mes después de los datos de entrenamiento fue adquirida), puedo sonda de la resistencia contra los factores de confusión que espero ser importante, etc. En otras palabras, podemos estudiar el comportamiento de nuestro modelo, así como de estudiar el comportamiento de cualquier otro sistema: investigar ciertos puntos, o perturbar y ver el cambio en el sistema de respuesta, etc.

Yo diría que el más importante de predicción de la calidad (y el más alto es el riesgo de sobreajuste) más tendemos a preferir las mediciones directas de predicción de la calidad, más que analíticamente derivados de los números. (Por supuesto que podría haber incluido todos los factores de confusión también en el diseño de la formación experimento). Algunas áreas tales como el diagnóstico médico, la demanda de que la correcta validación de los estudios se realizan antes de que el modelo está "suelta" en pacientes reales.

El tren/de la prueba de la división (ya sea a cabo el* o validación cruzada o fuera de bootstrap o ...) lleva esto un paso más fácil. Guardamos el extra experimento y no extrapolar (sólo generalizar para predecir desconocido independiente de los casos de la misma distribución de los datos de entrenamiento). Me gustaría describir esto como una verificación del lugar de la validación (aunque la validación profundamente en la terminología aquí). Esto es a menudo la manera pragmática a ir si no hay demasiado alta exigencia en la precisión de las figuras de mérito (que no necesitan ser conocidas de forma muy precisa, en una prueba-de-concepto de escenario).

* no hay que confundir un aleatorio simple dividida en tren y prueba con un diseño adecuado y el estudio para medir la calidad de predicción.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X