Processing math: 100%

3 votos

¿Qué método es correcto para calcular la desviación total explicada para los árboles de regresión potenciados?

Tengo la siguiente salida de un modelo de árboles de regresión potenciados y me gustaría calcular la desviación total explicada.

mean total deviance = 1.283 
mean residual deviance = 0.107 

estimated cv deviance = 0.212 ; se = 0.045 

training data correlation = 0.97 
cv correlation =  0.937 ; se = 0.016 

training data AUC score = 1 
cv AUC score = 0.996 ; se = 0.002

He encontrado dos métodos para hacer esto que me dan una respuesta diferente.

1) D2 = 1 – (residual deviance/total deviance) (Nieto y Mélin, 2017)

Con mis resultados esta ecuación es

D2 = 1 - (0.107/1.283) = 0.92

2) D2 = (total deviance - cross validated residual deviance)/total deviance (Leathwick et al., 2006)

Con mis resultados esta ecuación es

D2 = (1.283-0.212)/1.283 = 0.83

El documento del método 2 no proporciona la ecuación en su texto, pero está claro, dados los resultados de su modelo (Tabla 3, pp.272), que así es como se calculó. Además, hay una pregunta ici que discute este método.

¿Cuál de estos métodos es correcto?

3voto

usεr11852 Puntos 5514

Ninguno de los dos métodos es "erróneo", sino que miden aspectos diferentes de la modelización de datos. Dicho esto, yo preferiría el enfoque de Leathwick et al., ya que trata de tener en cuenta explícitamente la variabilidad del muestreo; en última instancia, es un informe de validación cruzada repetida de nuestra métrica de rendimiento.

Para comentar esto un poco más: Por un lado, el enfoque de Nieto & Mélin pretende generalizar directamente el concepto de coeficiente de determinación R2 utilizando los residuos de desviación en lugar de los reales. No remuestrea los datos ni nada parecido, informa directamente de la métrica elegida (aquí D2 ) en general todos los datos. Esto puede conducir potencialmente a resultados excesivamente optimistas con respecto a la generalización del rendimiento de nuestro modelo. Por otro lado, el enfoque de Leathwick et al. pretende incorporar la variabilidad del muestreo directamente a través del paso de validación cruzada repetida. Estimamos los valores de nuestra métrica de rendimiento utilizando datos "no vistos" que fueron excluidos durante el entrenamiento. Obsérvese que el "sesgo optimista" puede verse inmediatamente en la Tabla 3 del artículo de L. et al., si utilizamos la desviación residual del modelo en lugar de la desviación residual del CV. En ese caso, por ejemplo, la desviación generada por el CV D2 pasaría de 0.600 a 0.663 para el caso de un árbol de regresión potenciado con un tamaño de árbol 5 . El tamaño de la muestra de su solicitud particular no se indica explícitamente. Sin embargo, dado que no es gigantesco, la lectura de la metodología presentada en Beleites et al. (2013) Planificación del tamaño de la muestra para los modelos de clasificación es un buen punto de partida para hacerse una idea de cómo evaluar la consideración del tamaño de la muestra en un procedimiento de CV (múltiple).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X