Una forma de asegurar esto es para asegurarse de que se han codificado de seguridad de todas las cosas que hacer para entrar en el modelo, incluso "manitas". De esta manera, al ejecutar el proceso varias veces, decir a través de la validación cruzada, usted está guardando cosas coherentes entre pistas. Esto asegura que todas las posibles fuentes de variación son capturados por la cruz-proceso de validación.
El otro vitalmente importante es asegurarse de que usted tiene una muestra representativa, en ambos conjuntos de datos. Si el conjunto de datos no es representativa de la clase de datos que se piensa usar para predecir, entonces no hay mucho que usted puede hacer. Todo el modelado se basa en una suposición de que la "inducción" de las obras - las cosas que no hemos observado se comportan como las cosas que hemos observado.
Como regla general, manténgase alejado de los complejos de ajuste del modelo de procedimientos, a menos que (i) usted sabe lo que está haciendo, y (ii) se han tratado los métodos más sencillos, y se encontró que no funcionan, y cómo el complejo método corrige los problemas con el método simple. "Simples" y "complejas" se entiende en el sentido de "simple" o "complejo" a la persona que realiza la conexión. La razón de esto es tan importante es que permite aplicar lo que me gusta llamar un "oler prueba" a los resultados. Hace que el resultado se vea bien? Usted no puede "oler" los resultados de un procedimiento que no entiende.
NOTA: la próxima, más larga parte de mi respuesta está basada en mi experiencia, que es en el $N>>p$ área, con $p$ posiblemente grandes. Estoy casi seguro de que lo que sigue a continuación no se apliquen a las $N\aprox p$ o $N<p$ de los casos
Cuando usted tiene una muestra grande, la diferencia entre usar y no usar una determinada observación es muy pequeño, siempre que el modelado no es demasiado "local". Esto es debido a la influencia de un determinado punto de datos es generalmente del orden de $\frac{1}{N}$. Así, en grandes conjuntos de datos, los residuos que recibe de "sostener" el conjunto de datos de prueba son básicamente los mismos que los residuos que recibe de su uso en el conjunto de datos de entrenamiento. Usted puede mostrar esta utilizando mínimos cuadrados ordinarios. El residual que recibe de exclusión de la $i$th observación (es decir, lo que el conjunto de pruebas de error sería si ponemos a la observación en el conjunto de prueba) es de $e_i^{prueba}=(1-h_{ii})^{-1}e_i^\mathrm{tren}$, donde $e_i^\mathrm{tren}$ es la formación residual, y $h_{ii}$ es la influencia de la $i$th punto de datos. Ahora tenemos que $\sum_ih_{ii}=p$, donde $p$ es el número de variables en la regresión. Ahora si $N>>p$, entonces es muy difícil para cualquier $h_{ii}$ a ser lo suficientemente grande como para hacer una diferencia apreciable entre el conjunto de pruebas y de entrenamiento conjunto de errores. Podemos tomar un ejemplo sencillo, supongamos que $p=2$ (intercepción de y $1$ variable), $N\times p$ diseño de la matriz es de $X$ (ambos conjuntos de pruebas y entrenamiento), y el apalancamiento es
$$h_{ii}=x_i^T(X^TX)^{-1}x_i=\frac{1}{Ns_x^2}
\begin{pmatrix}1 & x_i \end{pmatrix}
\begin{pmatrix}\overline{x^2} & -\overline{x}\\ -\overline{x} & 1\end{pmatrix}
\begin{pmatrix}1 \\ x_i\end{pmatrix}
=\frac{1+\tilde{x}_i^2}{N}$$
Donde $\overline{x}=N^{-1}\sum_ix_i$, $\overline{x^2}=N^{-1}\sum_ix_i^2$ y $s_x^2=\overline{x^2}-\overline{x}^2$. Por último, $\tilde{x}_i=\frac{x_i-\overline{x}}{s_x}$ es el normalizado variable predictora, y las medidas de cuántas desviaciones estándar de $x_i$ es de la media. Así, sabemos desde el principio que el conjunto de pruebas de error será mucho más grande que el conjunto de entrenamiento de error para las observaciones "en el borde" del conjunto de entrenamiento. Pero esta es, básicamente, que el representante de la cuestión - observaciones "en el borde" son los menos representativos de observaciones "en el medio". Además, este es un pedido de $\frac{1}{N}$. Así que si usted tiene $100$ observaciones, incluso si $\tilde{x}_i=5$ (un valor atípico en x-espacio por la mayoría de las definiciones), esto significa $h_{ii}=\frac{26}{100}$, y el error de la prueba es subestimada por un factor de sólo $1-\frac{26}{100}=\frac{74}{100}$. Si usted tiene un gran conjunto de datos, por ejemplo, de $10000$, que es aún más pequeño,$1-\frac{26}{10000}$, que es menos de $1\text{%}$. De hecho, por $10000$ observaciones, que requeriría una observación de $\tilde{x}=50$ en el fin de hacer un $25\text{%}$ bajo-estimación de la prueba de conjunto de error, utilizando el conjunto de entrenamiento de error.
Así que para grandes conjuntos de datos, utilizando un conjunto de pruebas no es sólo ineficiente, también es necesario, siempre y cuando $N>>p$. Esto se aplica, por OLS y también aproximadamente se aplica para GLMs (los detalles son diferentes para GLM, pero la conclusión general es el mismo). En más de us $2$ dimensiones, los "valores atípicos" son definidos por las observaciones con grandes "componente principal" partituras. Esto puede ser demostrado por escrito de $h_{ii}=x_i^TEE^T(X^TX)^{-1}EE^Tx_i$ Donde $E$ es el (ortogonal) autovector de la matriz por $X^TX$, con autovalor de la matriz $\Lambda$. Nos dan $h_{ii}=z_i^T\Lambda^{-1}z_i=\sum_{j=1}^p\frac{z_{ji}^2}{\Lambda_{jj}}$ donde $z_i=E^Tx_i$ es el principal componente de resultados por $x_i$.
Si su conjunto de pruebas ha $k$ observaciones, se obtiene una matriz de la versión de ${\bf{e}}_{\{k\}}^\mathrm{prueba}=(I_k-H_{\{k\}})^{-1}{\bf{e}}_{\{k\}}^\mathrm{tren}$, donde $H_{\{k\}}=X_{\{k\}}(X^TX)^{-1}X_{\{k\}}^T$ y $X_{\{k\}}$ es la filas del diseño de la matriz en el conjunto de prueba. Así, para la regresión por MCO, ya sabe qué es la "prueba de conjunto" errores habría sido para todas las posibles divisiones de los datos en conjuntos de prueba y entrenamiento. En este caso ($N>>p$), no hay necesidad de dividir los datos en absoluto. Usted puede reportar "mejor caso" y "peor caso" de la prueba de conjunto de errores de casi cualquier tamaño sin necesidad de tener que dividir los datos. Esto puede ahorrar un montón de PC de tiempo y recursos.
Básicamente, todo esto se reduce a la utilización de un término de penalización, para dar cuenta de la diferencia entre el entrenamiento y prueba de errores, tales como BIC o AIC. De esta forma, se obtiene el mismo resultado como lo que el uso de un conjunto de pruebas, sin embargo usted no está obligado a tirar potencialmente útil la información. Con el BIC, que se aproximan a la evidencia para el modelo, que se ve matemáticamente como:
$$p(D|M_iI)=p(y_1y_2\dots y_N|M_iI)$$
Tenga en cuenta que en este procedimiento, no podemos estimar parámetros internos de cada modelo $M_i$ debe estar completamente especificada o tienen sus parámetros internos integrados. Sin embargo, podemos hacer que este aspecto de la validación cruzada (el uso de una función de pérdida) por repetidas ocasiones con el producto de la regla y, a continuación, tomar el registro del resultado:
$$p(D|M_iI)=p(y_1|M_iI)p(y_2\dots y_N|y_1M_iI)$$
$$=p(y_1|M_iI)p(y_2|y_1M_iI)p(y_3\dots y_N|y_1y_2M_iI)$$
$$=\dots=\prod_{i=1}^{N}p(y_i|y_1\dots y_{i-1}M_iI)$$
$$\implica\log\left[p(D|M_iI)\right]=\sum_{i=1}^{N}\log\left[p(y_i|y_1\dots y_{i-1}M_iI)\right]$$
Esto sugiere una forma de validación cruzada, pero donde el conjunto de entrenamiento se actualiza constantemente, una observación en un momento de la prueba de conjunto - similar a la del Filtro de Kalman. Podemos predecir la siguiente observación en el conjunto de prueba utilizando el actual conjunto de entrenamiento, la medida de la desviación del valor observado utilizando el condicional de la log-verosimilitud y, a continuación, actualizar el conjunto de entrenamiento para incluir la nueva observación. Pero tenga en cuenta que este procedimiento totalmente resúmenes de todos los datos disponibles, mientras que al mismo tiempo asegurándose de que cada observación se ha probado como un "fuera de muestra". También es invariante, en que no importa lo que usted llama "observación 1" o "de observación de 10"; el resultado es el mismo (los cálculos puede ser más fácil para algunos permutaciones que otros). La pérdida de la función también es una "adaptación" en el que si definimos $L_i=\log\left[p(y_i|y_1\dots y_{i-1}M_iI)\right]$, entonces la nitidez de $L_i$ depende del $i$, ya que la función de pérdida es actualizado constantemente con los nuevos datos.
Yo sugeriría que la evaluación de modelos de predicción de esta manera podría funcionar bastante bien.