3 votos

estrategia de validación cruzada k-fold para grandes conjuntos de datos en el aprendizaje estadístico

Estoy intentando aprender la estructura de red bayesiana a partir de un conjunto de datos muy grande, y el paquete R que he utilizado para el aprendizaje sólo puede manejar una parte muy pequeña del conjunto de datos (~10%) a la vez debido a las limitaciones computacionales.

La estrategia convencional de validación cruzada k-fold utiliza k-1 subconjuntos para el entrenamiento y 1 subconjunto para la prueba.

Quiero saber si puedo utilizar sólo un subconjunto aleatorio para el entrenamiento y otro subconjunto aleatorio para las pruebas. ¿Hay alguna solución mejor?

4voto

Eric Platon Puntos 265

La respuesta corta es sí, puede hacerlo. La validación cruzada k-fold se suele utilizar cuando los datos de muestra son suficientemente limitados. Por su descripción, a menos que su ordenador disponga de pocos recursos, parece que tiene una muestra muy grande. Si ese es el caso (su conjunto de datos de muestra es suficientemente grande), entonces podría hacer una validación cruzada de 2 veces. Esto daría lugar a 2 muestras (A y B), donde primero se entrena en A y se prueba en B, y luego viceversa.

Como ha mencionado un comentarista, el bagging (agregación bootstrap) es otra opción, aunque un clasificador ensemble puede no ser aplicable/deseable para su problema en particular. Otra opción sería extraer aleatoriamente muestras de ~ 10% de los datos para el entrenamiento, luego otro 10% para la prueba y repetir ese proceso varias veces y evaluar la variabilidad de sus resultados.

Lo que puede complicar el análisis es que usted ha declarado que está intentando aprender a trabajar en red. estructura . Si la estructura de la red (aristas entre nodos) ya está definida, evaluar la variabilidad de los pesos de la red es bastante sencillo, pero cuantificar la variabilidad de la estructura de la red (qué nodos están conectados y en qué dirección) es un proceso más complicado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X