52 votos

¿Cómo interpretar las medidas de error?

Estoy ejecutando el classify en Weka para un determinado conjunto de datos y me he dado cuenta de que si estoy tratando de predecir un valor nominal la salida muestra específicamente los valores predichos correcta e incorrectamente. Sin embargo, ahora lo estoy ejecutando para un atributo numérico y la salida es:

Correlation coefficient                 0.3305
Mean absolute error                     11.6268
Root mean squared error                 46.8547
Relative absolute error                 89.2645 %
Root relative squared error             94.3886 %
Total Number of Instances               36441 

¿Cómo interpreto esto? He intentado buscar en Google cada noción pero no entiendo mucho ya que la estadística no es para nada de mi especialidad. Agradecería mucho una respuesta tipo ELI5 en términos de estadística.

64voto

Dipstick Puntos 4869

Denotemos el verdadero valor de interés como θθ y el valor estimado mediante algún algoritmo como ˆθ^θ .

Correlación le dice cuánto θθ y ˆθ^θ están relacionados. Da valores entre 11 y 11 , donde 00 no tiene relación, 11 es una relación lineal muy fuerte y 11 es una relación lineal inversa (es decir, valores mayores de θθ indican valores menores de ˆθ^θ o viceversa). A continuación encontrará un ejemplo ilustrado de correlación.

Correlation example

(fuente: http://www.mathsisfun.com/data/correlation.html )

El error absoluto medio es:

MAE=1NNi=1|ˆθiθi|MAE=1NNi=1|^θiθi|

Raíz error cuadrático medio es:

RMSE=1NNi=1(ˆθiθi)2RMSE= 1NNi=1(^θiθi)2

Relativo error absoluto :

RAE=Ni=1|ˆθiθi|Ni=1|¯θθi|RAE=Ni=1|^θiθi|Ni=1|¯¯¯θθi|

donde ¯θ¯¯¯θ es un valor medio de θθ .

Error cuadrático relativo de la raíz:

RRSE=Ni=1(ˆθiθi)2Ni=1(¯θθi)2RRSE=    Ni=1(^θiθi)2Ni=1(¯¯¯θθi)2

Como ves, todas las estadísticas comparan los valores reales con sus estimaciones, pero lo hacen de forma ligeramente diferente. Todas te dicen "a qué distancia" están tus valores estimados del valor real de θθ . A veces se utilizan raíces cuadradas y a veces valores absolutos - esto es porque cuando se utilizan raíces cuadradas los valores extremos tienen más influencia en el resultado (ver ¿Por qué elevar al cuadrado la diferencia en lugar de tomar el valor absoluto en la desviación estándar? o en Mathoverflow ).

En MAEMAE y RMSERMSE simplemente se mira la "diferencia media" entre esos dos valores - así se interpreta comparando con la escala de su valor, (es decir MSEMSE de 1 punto es una diferencia de 1 punto de θθ entre ˆθ^θ y θθ ).

En RAERAE y RRSERRSE se dividen esas diferencias por la variación de θθ por lo que tienen una escala de 0 a 1 y si se multiplica este valor por 100 se obtiene la similitud en la escala 0-100 (es decir, el porcentaje). Los valores de (¯θθi)2(¯¯¯θθi)2 o |¯θθi||¯¯¯θθi| te diga cuánto θθ difiere de su valor medio - por lo que se podría decir que se trata de cuánto θθ difiere de sí mismo (compárese con desviación ). Por ello, las medidas se denominan "relativas": dan un resultado relacionado con la escala de θθ .

Compruebe también esas diapositivas .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X