Para empezar, yo diría que es generalmente bueno para ser cuidado con las declaraciones que hay sólo una manera de hacer algo. La división de un obtenidas con la muestra de un "entrenamiento" y una "prueba" conjunto de datos es un enfoque común en muchos de aprendizaje de la máquina/de los datos de las aplicaciones de las ciencias. A menudo, estos enfoques de modelado están menos interesados en la prueba de hipótesis sobre la base de los datos de proceso de generación, es decir, que tienden a ser un poco atheoretical. De hecho, la mayoría de estos tipos de entrenamiento/prueba se divide sólo quiero ver si el modelo es adecuado en términos de predicción de rendimiento. Por supuesto, también es posible utilizar un entrenamiento/acercamiento de la prueba para ver si un determinado modelo de replica en términos de los parámetros que son "importantes", o para ver si las estimaciones de los parámetros caen dentro de los rangos esperados en ambas instancias.
En teoría, validar o invalidar los modelos es lo que la ciencia, en forma escrita, se supone debe hacer. Investigadores independientes por separado el examen, la generación y comprobación de hipótesis que apoyar o refutar los argumentos acerca de una teoría de por qué o bajo qué circunstancias un fenómeno observable se produce - que es la empresa científica en una cáscara de nuez (o al menos en uno demasiado largo sentencia). Así que para responder a tu pregunta, para mí, incluso el entrenamiento/prueba de divisiones no son "validar" un modelo. Que es algo que lleva el peso de años de pruebas acumulado de múltiples independiente de los investigadores que estudian el mismo conjunto de fenómenos. Aunque, he de conceder que esto puede ser algo de una diferencia en la semántica acerca de lo que puedo ver a la validación del modelo a decir frente a lo que el plazo de validación como vienen a significar en la configuración que se aplica... pero para volver a la raíz de tu pregunta más directa.
Dependiendo de los datos y el enfoque de modelado, no siempre puede ser apropiado desde un punto de vista estadístico para dividir la muestra en conjuntos de prueba y entrenamiento. Por ejemplo, muestras pequeñas puede ser particularmente difícil de aplicar este enfoque. Además, algunas distribuciones pueden tener ciertas propiedades, haciendo difícil la modelo, incluso con relativamente grandes muestras. Su cero-inflado caso es probable que se ajusta a esta descripción. Si el objetivo es llegar a una aproximación de la "verdad" acerca de un conjunto de relaciones o subyacentes a los procesos de pensamiento para dar cuenta de un fenómeno, que no será bien servido a sabiendas de tomar una poca potencia enfoque de las pruebas de una determinada hipótesis. Así que tal vez el primer paso es realizar un análisis para ver si usted podría incluso ser probable para replicar el hallazgo de interés en su crea un subconjunto de datos. Si no es adecuadamente alimentado, que podría ser un argumento en contra de la prueba/entrenamiento de split.
Otra opción es especificar varios modelos para ver si "mejor" explicar los datos observados. Aquí, el objetivo sería identificar el mejor modelo entre un conjunto de alternativas razonables. Este es relativa, no absoluta, argumento que estaría haciendo acerca de su modelo en el que usted está admitiendo que puede haber otros modelos que podrían ser postulado para explicar sus datos, pero su modelo es el mejor de la prueba del conjunto de alternativas (al menos espero). Todos los modelos de la serie, incluyendo su hipótesis del modelo, deben estar fundados en la teoría; de lo contrario, se corre el riesgo de establecimiento de un grupo de estadísticos hombres de paja.
También hay Factores de Bayes en la que se puede calcular el peso de la evidencia de su modelo proporciona, de acuerdo con sus datos, para una hipótesis específica relativa a escenarios alternativos.
Esto está lejos de ser una lista exhaustiva de las opciones, pero espero te sirva de ayuda. Me bajaré de la tribuna ahora. Recuerde que cada modelo en cada estudio publicado sobre el comportamiento humano es incorrecta. Casi siempre hay pertinentes variables omitidas, unmodeled interacciones, de manera imperfecta las poblaciones muestreadas, y simplemente el viejo error de muestreo en el juego ofuscación de la verdad subyacente.