2 votos

¿Cuál es el propósito de usar un error cuadrático medio?

Esta pregunta podría ser un poco demasiado sobre aprendizaje automático, pero creo que es una pregunta apropiada para esta comunidad.

Digamos que tengo un conjunto $\mathcal X$ que contiene instancias, vectores de características de longitud $n$. Supongamos que tengo un conjunto $\mathcal Y$ que representa variables objetivo (y para abreviar, asumamos que son clasificables con $\mathcal Y = \{0,1\}$). Busco encontrar la asignación correcta $f$ tal que $\forall x_i \in \mathcal X, f(x_i) = y_i$.

Supongamos que tengo una asignación de hipótesis $h : \mathcal X \to \mathcal Y$. En cuanto a encontrar $f$ de manera práctica, tendría que:

  • Definir una función de error y minimizarla con respecto a las entradas de $h$.

  • Ajustar los elementos $\mathcal X$ con los parámetros que minimizan la función de costo para encontrar los parámetros exactos (la minimización de la función de error si se calcula a través de medios numéricos como el descenso de gradiente no será perfecta pero lo suficientemente cercana para aproximar usando una función de ajuste de curva como la función curve_fit de scipy.

Imagino que tiene sentido relacionar $f$ con $h$ por $f(x) = h(x) + \epsilon$, donde $\epsilon$ es el error de $h$. Entonces, ¿por qué no puedo definir mi función de error de la siguiente manera, con valores de entrenamiento $f(x_i) = y_i$...

$$\text{función de error} = y_i - \epsilon$$

Esto parece lo suficientemente razonable. En cambio, parece que usamos cosas como el error cuadrático medio en su lugar. ¿Por qué es necesario?

Otras preguntas:

  1. Además, ¿puedo escribir $h$ como $h(x)$ o debo escribirla como $h(x_1,x_2,..,x_n)$ dado que mis vectores tienen longitud $n$? I

  2. ¿El error cuadrático medio es la suma sobre la longitud del conjunto de entrenamiento o la longitud de todos los datos?

  3. ¿Qué sucede si la función de error no tiene un mínimo? ¿Qué pasa si tiene más de uno?

5voto

eepperly16 Puntos 158

Permíteme responder tu pregunta principal. Quieres minimizar el error, por lo que deseas que el error sea no negativo y solo sea cero si tienes una coincidencia exacta. Tu propuesta de $\text{error} = y_i - f(x_i)$ no cumple con este criterio, ya que el cero será negativo si $f(x_i)$ sobrepasa a $y_i$, es decir, $f(x_i) > y_i$. Ya que estarás sumando sobre todos tus datos, no quieres que el "error negativo" cancele el "error positivo".

Una solución obvia a tu propuesta es definir $\text{error} = |y_i - f(x_i)|$, el llamado error absoluto. Entonces, ¿por qué usar el error cuadrático medio en lugar del error absoluto?

En primer lugar, a veces realmente quieres usar el error absoluto. Para ciertos problemas en aprendizaje automático y otros campos en los que intentas reconstruir una señal que es "dispersa" (piensa en un problema de imágenes en el que la mayoría del dominio que estás imaginando es espacio vacío). Entonces, utilizar el error absoluto supera totalmente al error cuadrático medio (ver esto, el error absoluto se denomina L1 y el error cuadrático medio se denomina L2) por algún sentido de por qué). Esta es la base de todo un campo llamado muestreo comprimido.

Pero en muchos contextos, el error cuadrático medio es totalmente apropiado y preferible al error absoluto. Entonces, ¿por qué? Permíteme dar un par de respuestas:

  • El error cuadrático medio es diferenciable en todas partes, mientras que el error absoluto no lo es. Esto es importante para algoritmos basados en descenso de gradiente que requieren diferenciabilidad.
  • El error cuadrático medio es algebraicamente agradable. Puedes escribir todo utilizando productos de matrices-vector y productos punto y otras notaciones vectoriales. Además de ser conveniente, esto significa que muchos problemas pueden resolverse mucho más rápido. Las regresiones lineales que minimizan el error cuadrático medio pueden calcularse exactamente utilizando una [única factorización de matrices](https://es.wikipedia.org/wiki/QR descomposición) en lugar de un procedimiento iterativo como el descenso de gradiente. Esto no es cierto para el error absoluto, que requiere el más costoso programación lineal.

En mi experiencia hasta ahora, estas son las principales razones, aunque ciertamente hay otras.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X