57 votos

Empírica justificación para el error estándar de la regla cuando se utiliza la validación cruzada

Existen estudios empíricos que justifiquen la utilización de un error estándar de la regla en favor de la parsimonia? Obviamente depende de la generación de datos de proceso de los datos, pero nada que analiza un corpus grande de los conjuntos de datos sería una lectura muy interesante.


"Un error estándar de la regla" se aplica cuando la selección de modelos a través de la validación cruzada (o, más en general a través de cualquier aleatorización procedimiento).

Suponga que consideramos que los modelos $M_\tau$ indexados por la complejidad de un parámetro de $\tau\in\mathbb{R}$, de tal manera que $M_\tau$ es "más compleja" que $M_{\tau'}$ exactamente al $\tau>\tau'$. Además, supongamos que nos evaluar la calidad de un modelo de $M$ por algún proceso de aleatorización, por ejemplo, la validación cruzada. Deje $q(M)$ denotar el "promedio" de la calidad de la $M$, por ejemplo, la media fuera de la bolsa de error de predicción a través de muchos de validación cruzada se ejecuta. Queremos minimizar esta cantidad.

Sin embargo, desde nuestra medida de la calidad proviene de algún procedimiento de aleatorización, viene con la variabilidad. Deje $s(M)$ el valor del error estándar de la calidad de la $M$ a través de la aleatorización se ejecuta, por ejemplo, la desviación estándar de la hacia fuera-de-bolsa de error de predicción de $M$ durante la validación cruzada se ejecuta.

A continuación, elegimos el modelo de $M_\tau$ donde $\tau$ es el más pequeño de $\tau$ tal que

$$q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}),$$

donde $\tau'$ los índices de la (en promedio) el mejor modelo, $q(M_{\tau'})=\min_\tau q(M_\tau)$.

Es decir, podemos elegir el modelo más simple (el más pequeño $\tau$) que no es más que un error estándar peor que el mejor modelo $M_{\tau'}$ en el procedimiento de aleatorización.

He encontrado este "un error estándar de la regla de" a que se refiere en los siguientes lugares, pero nunca con cualquier justificación explícita:

3voto

Donbeo Puntos 760

El número de variables seleccionadas por el Lazo estimador se decidió por un valor de penalización $\lambda$. El más grande es $\lambda$ el más pequeño es el conjunto de variables seleccionadas. Podemos definir a la $\hat S(\lambda)$ el conjunto de variables seleccionadas usando como pena de $\lambda$.

Deje $\lambda^ \star$ ser la pena seleccionado utilizando el mínimo de la validación cruzada de la función. Se puede demostrar que $P(S_0 \subset \hat S(\lambda^\star))\rightarrow 1$. Donde $S_0$ es el conjunto de las variables que son realmente no 0. ( El conjunto de la verdadera variable es de contenido estrictamente en el conjunto estimado utilizando como pena el mínimo de la validación cruzada.)

Este debe ser el informe de estadísticas para el alta de datos dimensional por Thibshirani.

El valor de penalización $\lambda$ es a menudo eligen a través de la validación cruzada esto significa que, con alta probabilidad demasiado variables seleccionadas. Para reducir el número de variables seleccionadas de la pena se incrementa un poco mediante el error estándar de la regla.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X