4 votos

Rademacher Bound, ¿una alternativa a la validación cruzada para Ridge?

A continuación se muestra un teorema del libro "Foundations of Machine Learning".

enter image description here

Especifica los límites de generalización para la Regresión Kernel Ridge haciendo uso de la Complejidad Rademacher en modelos lineales. R(h)R(h) es el error de generalización, y ˆR(h)^R(h) es el error empírico. Ahora casi todo lo conocemos, lo elegimos o lo podemos calcular. mm es el número de muestras de entrenamiento.

En lugar de encontrar la sanción adecuada ΛΛ a través de la validación cruzada, ¿podemos simplemente elegir el ΛΛ que minimice el lado derecho de la desigualdad? ¿Cuál debería ser el δδ que debe establecerse para lograr el mejor resultado predictivo? ¿Cómo elegir rr lo más ajustado posible?

¿Es una alternativa a la validación cruzada para la regresión Kernel Ridge (o simplemente Ridge)?

1voto

WReach Puntos 13161

El problema es que la segunda parte del límite superior del error de generalización puede ser enorme. Es decir, el límite no es muy ajustado, por lo que no podría dar una buena indicación del error de generalización.

Realmente no se puede elegir el ΛΛ que minimice el lado derecho de la desigualdad (que sería 00 ), porque el teorema supone que |f(x)|Λr|f(x)|Λr . Así que, si lo minimizas tal cual, pierdes expresividad básicamente. ¿O te refieres a hacer una búsqueda en la red en ΛΛ Calibre el modelo y calcule el límite superior, luego seleccione el ΛΛ que después de la calibración minimiza todo el límite superior y no sólo la segunda parte del mismo?

Tampoco puedes elegir rr es un valor del problema dado por la distribución de sus datos. Básicamente es el radio de la bola en la que se encuentran los datos.

Finalmente, δδ no influye en su capacidad de predicción. Es un indicador de "cómo de seguro" es este límite superior. De hecho, el límite superior no es determinista, sólo es válido con una cierta probabilidad. Escrito de forma holística sería: P({R(h)ˆR(h)+8r2Λ2m(1+0.5logδ12)})<1δ Cuando se computa, generalmente se quiere un δ como por ejemplo 0.01 pero no afecta mucho al resultado ya que es logδ1 .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X