30 votos

Tiene la revista de Ciencias aprobó el Jardín de la Bifurcación Pathes Análisis?

La idea de la adaptación de análisis de datos es que modifique su plan para el análisis de los datos a medida que aprenda más acerca de él. En el caso de análisis exploratorio de datos (EDA), que generalmente es una buena idea (que a menudo están buscando para imprevistos patrones en los datos), pero para un estudio de confirmación, esto es ampliamente aceptado como un muy deficiente método de análisis (a menos que todos los pasos están claramente definidos y debidamente planificada en el avanzado).

Lo que se dice, de adaptación de análisis de datos es normalmente la cantidad de investigadores que en realidad la conducta de sus análisis, mucho a la consternación de los estadísticos. Como tal, si se puede hacer esto en una estadística de manera válida, podría revolucionar la práctica de la estadística.

El siguiente de la Ciencia artículo afirma haber encontrado un método para hacer tal (me disculpo por el paywall, pero si usted está en una universidad, es probable que tenga acceso): Dwork et al, 2015, de La reutilizables de exclusión: Preservar la validez de adaptación en el análisis de datos.

Personalmente, siempre he sido escéptico de las estadísticas de los artículos publicados en la Ciencia, y este no es diferente. De hecho, después de leer el artículo dos veces, incluyendo el material complementario, no puedo entender (a todos) ¿por qué los autores afirman que su método se evita el sobre-ajuste.

Mi entendimiento es que tienen una exclusión del conjunto de datos, que se va a reutilizar. Parecen reclamar por "fuzzing" el resultado de los análisis de confirmación en la exclusión del conjunto de datos, más ajustada será impedido (vale la pena señalar que la confusión parece ser sólo la adición de ruido si el valor calculado de la estadística en los datos de entrenamiento es lo suficientemente lejos de la calculado de la estadística en los datos de exclusión). Como lo que yo puedo decir, no hay ninguna verdadera razón por la que este debe evitar la sobre-ajuste.

Estoy equivocado en lo que los autores están proponiendo? ¿Hay algún efecto sutil que estoy vistas? O tiene la Ciencia apoyó la peor práctica de la estadística hasta la fecha?

3voto

horaceT Puntos 170

Estoy seguro de que estoy simplificando este diferencial de privacidad técnica aquí, pero la idea tiene sentido en un nivel alto.

Cuando usted consigue un algoritmo para escupir buen resultado (wow, la exactitud en mi prueba de conjunto ha mejorado realmente), que no quieren saltar a la conclusión de inmediato. Quieres aceptarlo sólo cuando la mejora es significativamente más grande que el anterior algoritmo. Esa es la razón por la adición de ruido.

EDITAR : Este blog tiene buena explicación y R códigos de demostración de la eficacia del ruido de la serpiente, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/

2voto

avid Puntos 161

Me opongo a su segunda frase. La idea de que un completo plan de análisis de datos debe ser determinado de antemano, incluso en un entorno en el que usted está tratando de confirmar un preexistentes hipótesis científica, es no "ampliamente aceptada como una muy deficiente método de análisis". Por el contrario, cualquier decente análisis de los datos se requiere un poco de atención a los datos reales que ha sido adquirido. Los investigadores que creen lo contrario, son generalmente los investigadores que creen que las pruebas de significación es el principio y el fin de análisis de datos, con poco o ningún papel de la estadística descriptiva, parcelas, estimación, predicción, el modelo de selección, etc. En ese entorno, el requisito de fijar la analítica de los planes por adelantado hace más sentido, ya que las convencionales formas en que los p-valores se calculan requieren que el tamaño de la muestra y de las pruebas a realizar se decidió por adelantado antes de ver los datos. Este requisito tendones de la corva, el analista, y por lo tanto es una de las muchas buenas razones para no utilizar las pruebas de significación.

Se podría objetar que dejar que el analista de elegir qué hacer después de ver los datos permite el sobreajuste. Sí, pero un buen analista mostrará todos los análisis que se realizaron, decir explícitamente lo que la información de los datos fue utilizada para hacer la analítica de decisiones, y el uso de métodos tales como la validación cruzada de forma adecuada. Por ejemplo, es generalmente buena para recodificar variables de acuerdo con los obtenidos de la distribución de valores, pero la elección de algunos análisis de la 3 predictores de 100 que tiene el más cercano observó asociación con la variable dependiente significa que las estimaciones de la asociación van a ser positivamente sesgada, por el principio de la regresión a la media. Si usted desea hacer la selección de variables en una predictivo contexto, es necesario seleccionar las variables en el interior de su validación cruzada pliegues, o utilizando sólo los datos de entrenamiento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X