5 votos

Validación: Datos de la división en formación frente de la prueba de conjuntos de datos

Yo estaba ingenuamente validar mi binomial logit modelos de pruebas en un conjunto de datos de prueba. Yo había divididos aleatoriamente los datos disponibles (~2000 filas) en la formación (~1500) y validación (~500) de los conjuntos de datos.

Ahora puedo leer un post en otro hilo ( Frank Harrell) que me hace cuestionar mi planteamiento:

Los datos de separación no es muy fiable a menos que tenga más de 15.000 observaciones. En otras palabras, si usted divide de nuevo los datos, la precisión los índices varían demasiado de lo que obtuvo con la primera split.

¿Qué tan grave es esta preocupación y de qué manera alrededor de ella? El OP habla de "remuestreo" pero no estoy seguro de cómo funciona aquí para la validación.

Edit: la Adición de contexto como por @Bernhard comentario de abajo:

Comparación de modelos de regresión logística

12voto

Glen Little Puntos 1686

La división de la muestra de validación propuesto anteriormente, se ha vuelto menos popular en muchos campos debido a la cuestión Harrell menciona (poco fiable de la bolsa de las estimaciones). Sé Harrell ha mencionado en su libro de texto, pero otras referencias sería Steyerberg "los Modelos de Predicción Clínica" p301, James et al "Una Introducción a la Estadística de Aprendizaje" p175.

En el campo de la biomedicina boostrap de remuestreo se ha convertido en la norma. Esto se lleva a cabo en Harrell rms del paquete y de manera bastante fácil de implementar. Pero puedes utilizar cualquiera de los otros métodos de remuestreo, bootstap se ha vuelto popular debido a una Steyerberg artículo lo que sugiere que es el más eficiente de los métodos de remuestreo ("validación Interna de los modelos de predicción: la eficiencia de algunos de los procedimientos para el análisis de regresión logística").

Vale la pena mencionar que el beneficio de la rms paquete es que fácilmente le permite incluir algunos de la selección de variables en el bootstap (construido en la selección paso a paso de la opción). Esto puede ser difícil de lograr con la mayoría de los paquetes comerciales.

Tengo la sensación de que las diferencias han sido sobrevalorada. Yo suelo ser bastante fiable/resultados consistentes independientemente del método utilizado. Con tamaños de muestra grandes, las diferencias son realmente inexistente.

Bootstrap de validación, así como la de otros métodos de remuestreo - también pueden ser fácilmente hecho mal. A menudo sólo algunas de las etapas de la construcción de modelos se incluyen en el bootstrap dar estimaciones inexactas. Por otro lado es bastante difícil lío de división de la muestra de validación. Dada la cara de la validez de la división de muestreo - sé que ustedes no muck, prefiero dividir la muestra a menos que sea muy pequeño conjunto de datos. En muchos casos el modelo de proceso de creación es también bastante complicada que realmente no puede ser incluido en un método de remuestreo.

Si usted desea publicar en una revista biomédica sin embargo, y usted no está usando un plan de medicare tamaño de la base de datos, usted querrá usar un método de remuestreo - probablemente el arranque. Si el conjunto de datos es grande, por lo que es probable que todavía se publican con k-fold y ahorrar un poco de tiempo de procesamiento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X