Existen estudios empíricos que justifiquen la utilización de un error estándar de la regla en favor de la parsimonia? Obviamente depende de la generación de datos de proceso de los datos, pero nada que analiza un corpus grande de los conjuntos de datos sería una lectura muy interesante.
"Un error estándar de la regla" se aplica cuando la selección de modelos a través de la validación cruzada (o, más en general a través de cualquier aleatorización procedimiento).
Suponga que consideramos que los modelos $M_\tau$ indexados por la complejidad de un parámetro de $\tau\in\mathbb{R}$, de tal manera que $M_\tau$ es "más compleja" que $M_{\tau'}$ exactamente al $\tau>\tau'$. Además, supongamos que nos evaluar la calidad de un modelo de $M$ por algún proceso de aleatorización, por ejemplo, la validación cruzada. Deje $q(M)$ denotar el "promedio" de la calidad de la $M$, por ejemplo, la media fuera de la bolsa de error de predicción a través de muchos de validación cruzada se ejecuta. Queremos minimizar esta cantidad.
Sin embargo, desde nuestra medida de la calidad proviene de algún procedimiento de aleatorización, viene con la variabilidad. Deje $s(M)$ el valor del error estándar de la calidad de la $M$ a través de la aleatorización se ejecuta, por ejemplo, la desviación estándar de la hacia fuera-de-bolsa de error de predicción de $M$ durante la validación cruzada se ejecuta.
A continuación, elegimos el modelo de $M_\tau$ donde $\tau$ es el más pequeño de $\tau$ tal que
$$q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}),$$
donde $\tau'$ los índices de la (en promedio) el mejor modelo, $q(M_{\tau'})=\min_\tau q(M_\tau)$.
Es decir, podemos elegir el modelo más simple (el más pequeño $\tau$) que no es más que un error estándar peor que el mejor modelo $M_{\tau'}$ en el procedimiento de aleatorización.
He encontrado este "un error estándar de la regla de" a que se refiere en los siguientes lugares, pero nunca con cualquier justificación explícita:
- Página 80 en Breiman et al., 1984 CARRO libro
- Página 415 en Tibshirani et al., 2001 Brecha estadística de papel, JRSS B (referencia Breiman et al.)
- Las páginas 61 y 244 en Elementos de Aprendizaje Estadístico por Hastie et al. (2009)