52 votos

¿Cómo interpretar las medidas de error?

Estoy ejecutando el classify en Weka para un determinado conjunto de datos y me he dado cuenta de que si estoy tratando de predecir un valor nominal la salida muestra específicamente los valores predichos correcta e incorrectamente. Sin embargo, ahora lo estoy ejecutando para un atributo numérico y la salida es:

Correlation coefficient                 0.3305
Mean absolute error                     11.6268
Root mean squared error                 46.8547
Relative absolute error                 89.2645 %
Root relative squared error             94.3886 %
Total Number of Instances               36441 

¿Cómo interpreto esto? He intentado buscar en Google cada noción pero no entiendo mucho ya que la estadística no es para nada de mi especialidad. Agradecería mucho una respuesta tipo ELI5 en términos de estadística.

64voto

Dipstick Puntos 4869

Denotemos el verdadero valor de interés como $\theta$ y el valor estimado mediante algún algoritmo como $\hat{\theta}$ .

Correlación le dice cuánto $\theta$ y $\hat{\theta}$ están relacionados. Da valores entre $-1$ y $1$ , donde $0$ no tiene relación, $1$ es una relación lineal muy fuerte y $-1$ es una relación lineal inversa (es decir, valores mayores de $\theta$ indican valores menores de $\hat{\theta}$ o viceversa). A continuación encontrará un ejemplo ilustrado de correlación.

Correlation example

(fuente: http://www.mathsisfun.com/data/correlation.html )

El error absoluto medio es:

$$\mathrm{MAE} = \frac{1}{N} \sum^N_{i=1} | \hat{\theta}_i - \theta_i | $$

Raíz error cuadrático medio es:

$$ \mathrm{RMSE} = \sqrt{ \frac{1}{N} \sum^N_{i=1} \left( \hat{\theta}_i - \theta_i \right)^2 } $$

Relativo error absoluto :

$$ \mathrm{ RAE} = \frac{ \sum^N_{i=1} | \hat{\theta}_i - \theta_i | } { \sum^N_{i=1} | \overline{\theta} - \theta_i | } $$

donde $\overline{\theta}$ es un valor medio de $\theta$ .

Error cuadrático relativo de la raíz:

$$ \mathrm{ RRSE }= \sqrt{ \frac{ \sum^N_{i=1} \left( \hat{\theta}_i - \theta_i \right)^2 } { \sum^N_{i=1} \left( \overline{\theta} - \theta_i \right)^2 }} $$

Como ves, todas las estadísticas comparan los valores reales con sus estimaciones, pero lo hacen de forma ligeramente diferente. Todas te dicen "a qué distancia" están tus valores estimados del valor real de $\theta$ . A veces se utilizan raíces cuadradas y a veces valores absolutos - esto es porque cuando se utilizan raíces cuadradas los valores extremos tienen más influencia en el resultado (ver ¿Por qué elevar al cuadrado la diferencia en lugar de tomar el valor absoluto en la desviación estándar? o en Mathoverflow ).

En $ \mathrm{ MAE}$ y $ \mathrm{ RMSE}$ simplemente se mira la "diferencia media" entre esos dos valores - así se interpreta comparando con la escala de su valor, (es decir $ \mathrm{ MSE}$ de 1 punto es una diferencia de 1 punto de $\theta$ entre $\hat{\theta}$ y $\theta$ ).

En $ \mathrm{ RAE}$ y $ \mathrm{ RRSE}$ se dividen esas diferencias por la variación de $\theta$ por lo que tienen una escala de 0 a 1 y si se multiplica este valor por 100 se obtiene la similitud en la escala 0-100 (es decir, el porcentaje). Los valores de $\sum(\overline{\theta} - \theta_i)^2$ o $\sum|\overline{\theta} - \theta_i|$ te diga cuánto $\theta$ difiere de su valor medio - por lo que se podría decir que se trata de cuánto $\theta$ difiere de sí mismo (compárese con desviación ). Por ello, las medidas se denominan "relativas": dan un resultado relacionado con la escala de $\theta$ .

Compruebe también esas diapositivas .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X