¿Qué método es correcto para calcular la desviación total explicada para los árboles de regresión potenciados?

Question

¿Qué método es correcto para calcular la desviación total explicada para los árboles de regresión potenciados?

Preguntado el 13 de Mayo, 2019: Cuando se hizo la pregunta
802 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo la siguiente salida de un modelo de árboles de regresión potenciados y me gustaría calcular la desviación total explicada.

mean total deviance = 1.283 
mean residual deviance = 0.107 

estimated cv deviance = 0.212 ; se = 0.045 

training data correlation = 0.97 
cv correlation =  0.937 ; se = 0.016 

training data AUC score = 1 
cv AUC score = 0.996 ; se = 0.002

He encontrado dos métodos para hacer esto que me dan una respuesta diferente.

1) D2 = 1 – (residual deviance/total deviance) (Nieto y Mélin, 2017)

Con mis resultados esta ecuación es

D2 = 1 - (0.107/1.283) = 0.92

2) D2 = (total deviance - cross validated residual deviance)/total deviance (Leathwick et al., 2006)

Con mis resultados esta ecuación es

D2 = (1.283-0.212)/1.283 = 0.83

El documento del método 2 no proporciona la ecuación en su texto, pero está claro, dados los resultados de su modelo (Tabla 3, pp.272), que así es como se calculó. Además, hay una pregunta ici que discute este método.

¿Cuál de estos métodos es correcto?

Preguntado el 13 de Mayo, 2019 por tom

Answer 1

1 Respuestas

Answer 2

3voto

usεr11852 Puntos 5514

Ninguno de los dos métodos es "erróneo", sino que miden aspectos diferentes de la modelización de datos. Dicho esto, yo preferiría el enfoque de Leathwick et al., ya que trata de tener en cuenta explícitamente la variabilidad del muestreo; en última instancia, es un informe de validación cruzada repetida de nuestra métrica de rendimiento.

Para comentar esto un poco más: Por un lado, el enfoque de Nieto & Mélin pretende generalizar directamente el concepto de coeficiente de determinación $R^2$ utilizando los residuos de desviación en lugar de los reales. No remuestrea los datos ni nada parecido, informa directamente de la métrica elegida (aquí $D^2$ ) en general todos los datos. Esto puede conducir potencialmente a resultados excesivamente optimistas con respecto a la generalización del rendimiento de nuestro modelo. Por otro lado, el enfoque de Leathwick et al. pretende incorporar la variabilidad del muestreo directamente a través del paso de validación cruzada repetida. Estimamos los valores de nuestra métrica de rendimiento utilizando datos "no vistos" que fueron excluidos durante el entrenamiento. Obsérvese que el "sesgo optimista" puede verse inmediatamente en la Tabla 3 del artículo de L. et al., si utilizamos la desviación residual del modelo en lugar de la desviación residual del CV. En ese caso, por ejemplo, la desviación generada por el CV $D^2$ pasaría de $0.600$ a $0.663$ para el caso de un árbol de regresión potenciado con un tamaño de árbol 5 . El tamaño de la muestra de su solicitud particular no se indica explícitamente. Sin embargo, dado que no es gigantesco, la lectura de la metodología presentada en Beleites et al. (2013) Planificación del tamaño de la muestra para los modelos de clasificación es un buen punto de partida para hacerse una idea de cómo evaluar la consideración del tamaño de la muestra en un procedimiento de CV (múltiple).

Respondido el 22 de Mayo, 2019 por usεr11852 (5514 Puntos )

¿Qué método es correcto para calcular la desviación total explicada para los árboles de regresión potenciados?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Qué método es correcto para calcular la desviación total explicada para los árboles de regresión potenciados?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: