La idea de la adaptación de análisis de datos es que modifique su plan para el análisis de los datos a medida que aprenda más acerca de él. En el caso de análisis exploratorio de datos (EDA), que generalmente es una buena idea (que a menudo están buscando para imprevistos patrones en los datos), pero para un estudio de confirmación, esto es ampliamente aceptado como un muy deficiente método de análisis (a menos que todos los pasos están claramente definidos y debidamente planificada en el avanzado).
Lo que se dice, de adaptación de análisis de datos es normalmente la cantidad de investigadores que en realidad la conducta de sus análisis, mucho a la consternación de los estadísticos. Como tal, si se puede hacer esto en una estadística de manera válida, podría revolucionar la práctica de la estadística.
El siguiente de la Ciencia artículo afirma haber encontrado un método para hacer tal (me disculpo por el paywall, pero si usted está en una universidad, es probable que tenga acceso): Dwork et al, 2015, de La reutilizables de exclusión: Preservar la validez de adaptación en el análisis de datos.
Personalmente, siempre he sido escéptico de las estadísticas de los artículos publicados en la Ciencia, y este no es diferente. De hecho, después de leer el artículo dos veces, incluyendo el material complementario, no puedo entender (a todos) ¿por qué los autores afirman que su método se evita el sobre-ajuste.
Mi entendimiento es que tienen una exclusión del conjunto de datos, que se va a reutilizar. Parecen reclamar por "fuzzing" el resultado de los análisis de confirmación en la exclusión del conjunto de datos, más ajustada será impedido (vale la pena señalar que la confusión parece ser sólo la adición de ruido si el valor calculado de la estadística en los datos de entrenamiento es lo suficientemente lejos de la calculado de la estadística en los datos de exclusión). Como lo que yo puedo decir, no hay ninguna verdadera razón por la que este debe evitar la sobre-ajuste.
Estoy equivocado en lo que los autores están proponiendo? ¿Hay algún efecto sutil que estoy vistas? O tiene la Ciencia apoyó la peor práctica de la estadística hasta la fecha?