18 votos

¿Por qué nos preocupamos más por el error de prueba que por el error de prueba esperado en el aprendizaje automático?

En la sección 7.2 de Hastie, Tibshirani y Friedman (2013) Los elementos del aprendizaje estadístico tenemos la variable objetivo $Y$ y un modelo de predicción $\hat{f}(X)$ que se ha estimado a partir de un conjunto de entrenamiento $\mathcal{T} = \{Y_1, ..., Y_N, X_1, ..., X_N\}$ . La pérdida se denomina $L(Y, \hat{f}(X))$ y, a continuación, los autores definen el error de la prueba: \begin{equation} \mathrm{Err}_{\mathcal{T}} = \mathbb{E} \left[ L(Y, \hat{f}(X)) | \mathcal{T} \right] , \end{equation} y el error esperado de la prueba: \begin{equation} \mathrm{Err} = \mathbb{E} (\mathrm{Err}_{\mathcal{T}}) . \end{equation} Los autores afirman a continuación:

Estimación de $\mathrm{Err}_{\mathcal{T}}$ será nuestro objetivo...

Mi pregunta : ¿Por qué nos preocupamos más por $\mathrm{Err}_{\mathcal{T}}$ que $\mathrm{Err}$ ?

Habría pensado que la cantidad que mide la pérdida esperada, independientemente de la muestra de entrenamiento utilizada sería más interesante que la pérdida esperada que condiciona una muestra de entrenamiento específica. ¿Qué se me escapa?

Además, he leído esta respuesta aquí que (basándome en mi lectura posiblemente incorrecta) parece estar de acuerdo conmigo en que $\mathrm{Err}$ es la cantidad de interés, pero sugiere que a menudo hablamos de $\mathrm{Err}_{\mathcal{T}}$ porque puede estimarse mediante validación cruzada. Pero esto parece contradecir la Sección 7.12 del libro de texto, que (de nuevo por mi lectura posiblemente incorrecta) parece sugerir que la validación cruzada proporciona una mejor estimación de $\mathrm{Err}$ que $\mathrm{Err}_{\mathcal{T}}$ .

Estoy dando vueltas en círculos en este caso, así que pensé que iba a preguntar aquí.

31voto

Alex Puntos 128

¿Por qué nos preocupamos más por $\operatorname{Err}_{\mathcal{T}}$ que Err?

Sólo puedo hacer conjeturas, pero creo que son razonables.

El primero se refiere al error para el conjunto de entrenamiento que tenemos ahora mismo. Responde a "Si utilizara este conjunto de datos para entrenar este modelo, ¿qué tipo de error esperaría?". Es fácil pensar en el tipo de personas que querrían conocer esta cantidad (por ejemplo, científicos de datos, estadísticos aplicados, básicamente cualquiera que utilice un modelo como medio para alcanzar un fin). A estas personas no les importan las propiedades del modelo en nuevos conjuntos de entrenamiento. propiamente dicho Sólo les importa el rendimiento del modelo que han fabricado.

Contrasta con el segundo error, que es la expectativa del primer error en todos los conjuntos de entrenamiento. Responde "Si recogiera una secuencia infinita de nuevos ejemplos de entrenamiento y calculara $\operatorname{Err}_{\mathcal{T}}$ para cada uno de esos conjuntos de entrenamiento en una secuencia infinita, ¿cuál sería el valor medio de esa secuencia de errores?". Es fácil pensar en el tipo de personas que se preocupan por esta cantidad (por ejemplo, investigadores, teóricos, etc.). A estas personas no les preocupa ningún caso concreto de un modelo (a diferencia de las personas del párrafo anterior), sino que les interesa el comportamiento general de un modelo.

¿Por qué lo primero y no lo segundo? El libro trata en gran medida de cómo ajustar y validar modelos cuando los lectores disponen de un único conjunto de datos y quieren saber cómo puede comportarse ese modelo con nuevos datos.

11voto

icelava Puntos 548

+1 a Respuesta de Demetri Pananos .

Es muy posible que apliquemos el mismo modelo $f$ a dos conjuntos de datos de entrenamiento diferentes $\mathcal{T}$ et $\mathcal{T}'$ . Y $\mathrm{Err}_{\mathcal{T}}$ puede ser muy diferente de $\mathrm{Err}_{\mathcal{T}'}$ - o mucho más bajo, o mucho más alto. Esto puede tener una importancia mucho mayor cuando apliquemos realmente $f$ que el error esperado $\mathrm{Err}$ sobre todas las posibles $\mathcal{T}$ s.

Por ejemplo, yo hago previsiones de reposición en un supermercado y aplico mi modelo a muchísimos conjuntos de datos de entrenamiento (básicamente, ventas históricas de un producto en una tienda). La pérdida se transforma directamente en el stock de seguridad necesario. Es mucho más importante conocer el stock de seguridad necesario por producto y tienda que el stock de seguridad "global".

8voto

John Richardson Puntos 1197

La Teoría del Aprendizaje Computacional, a menudo se ocupa de poner límites a la $\mathrm{Err}$ por ejemplo Dimensión CV (que no depende del conjunto de entrenamiento). La máquina de vectores de apoyo es una implementación aproximada de uno de estos límites (aunque, en mi opinión, lo que hace que funcione bien es la regularización, más que la parte de la pérdida de bisagra). Quizá podría decirse que $\mathrm{Err}$ es importante en el diseño de algoritmos de aprendizaje, mientras que $\mathrm{Err}_\mathcal{T}$ es más relevante a la hora de aplicarlos a un problema o conjunto de datos concreto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X