Estoy en la modelización de una variable continua (es decir, la cantidad media de algo por cliente). La variable tiene algunos distribución asimétrica: por ejemplo Gamma/Tweedie/ etc.
Supongamos que yo no soy capaz de hacerlo validación cruzada después de la construcción de un modelo: Todo lo que puedo hacer es seleccionar tren/prueba de subconjuntos de una vez (80%/20%) del conjunto de datos inicial y, a continuación, modelo de tren de usar tren.
El problema es que a la hora de generar el 80% el uso de pseudo variable aleatoria puede ocurrir que mi tren de prueba correctamente no parecerse a los del conjunto de datos original. También el problema es que el tren y prueba de conjunto no podría parecerse el uno al otro.
¿Alguien sabe la forma correcta de dividir los datos en tren/de la prueba de modo que cada parte del tren/de prueba que se asemejan unos a otros y la distribución inicial?
Entiendo que por lo general, debe usar la validación cruzada, mientras que la selección de los parámetros del modelo para superar este tipo de problemas, pero hay algo que uno podría hacer sin él? He encontrado algo de información acerca de KLIEP algoritmo, pero no estoy seguro de que es aplicable para el caso de los mencionados anteriormente.
Agradecería cualquier comentario/enlaces para leer.