A mí me parece que su pregunta más general, las direcciones de diferente sabor de la validación de un modelo predictivo: validación Cruzada tiene más que ver con la validez interna, o al menos la inicial de la modelización de la etapa, mientras que el dibujo de los nexos causales en un ámbito más amplio de la población está más relacionado con la validez externa. Por que (y como una actualización seguir a @Brett agradable comentario), me refiero a que por lo general construir un modelo en una muestra de trabajo, asumiendo un hipotético modelo conceptual (es decir, hemos de especificar las relaciones entre los predictores y el resultado(s) de interés), y tratamos de obtener estimaciones fiables con una mínima tasa de error de clasificación o un mínimo error de predicción. Con suerte, mejor que el modelo funciona, mejor nos va a permitir predecir el resultado de la(s) invisible de datos; sin embargo, el CV no dice nada acerca de la "validez" o la adecuación de las hipótesis de relaciones causales. Ciertamente podríamos conseguir resultados decentes con un modelo en el que algunos de moderación y/o mediación efectos son descuidadas o simplemente no se conoce de antemano.
Mi punto es que cualquiera que sea el método que utilice para validar su modelo (y de exclusión del método es, sin duda no es el mejor, pero todavía es ampliamente utilizado en el estudio epidemiológico para aliviar los problemas derivados de paso a paso de la construcción de modelos), se trabaja con la misma muestra (que suponemos es representativa de una población más grande). Por el contrario, la generalización de los resultados y los vínculos causales inferirse de esta manera a las nuevas muestras o posiblemente relacionadas con la población se realiza generalmente mediante la replicación de los estudios. Esto asegura que con seguridad se puede probar la capacidad predictiva de este modelo, en un "superpopulation", que cuenta con una mayor gama de variaciones individuales y pueden presentar otros factores potenciales de interés.
Su modelo puede proporcionar predicciones válidas para su muestra de trabajo, e incluye todos los posibles factores de confusión que pueden tener de pensar; sin embargo, es posible que no funcione tan bien con los nuevos datos, sólo porque otros factores aparecen en la intervención de la causal de ruta de acceso que no fueron identificados cuando la construcción del modelo inicial. Esto puede suceder si algunos de los predictores y los vínculos causales inferirse de ello depende el juicio en particular centro donde los pacientes fueron reclutados, por ejemplo.
En epidemiología genética, muchos de los estudios de asociación de genoma no replicar sólo porque estamos tratando de modelo de enfermedades complejas con una simplificación de vista sobre las relaciones causales entre los marcadores de ADN y el fenotipo observado, si bien es muy probable que la gen-gen (epistasis), el gen de enfermedades (pleiotropía), gen-ambiente, y la subestructura de la población entran en juego, pero véase, por ejemplo, la Validación, el aumento y la refinación de asociación de genoma de señales (ioannidis, académico e investigador et al., Nature Reviews Genetics, 2009 10). Por lo tanto, podemos construir un eficiente modelo para dar cuenta de lo observado de la cruz-las variaciones de entre un conjunto de marcadores genéticos (con muy baja y el escaso tamaño del efecto) y multivariante, patrón de los fenotipos observados (por ejemplo, el volumen de la blanco/gris de la materia o localizada actividades en el cerebro como se observa a través de resonancia magnética funcional, las respuestas a la evaluación neuropsicológica o inventario de personalidad), todavía no funcionar como se espera en una muestra independiente.
Como para una referencia general sobre este tema, se puede recomendar el capítulo 17 y la Parte III de los Modelos de Predicción Clínica, de EW Steyerberg (Springer, 2009). También me gusta el siguiente artículo de ioannidis, académico e investigador:
Ioannidis, académico e investigador, JPA, ¿por Qué la Mayoría de las publicaciones
Los Hallazgos De La Investigación Son Falsas?PLoS
Med. 2005 2(8): e124