La insulina sensibilidad de verificación índice de QUICKI) tiene una excelente correlación lineal con el clamp de glucosa índice de sensibilidad a la insulina (SI_Clamp) que es mejor que la de muchos otros sustitutos de los índices. Sin embargo, la correlación entre el sustituto y el estándar de referencia puede mejorar debido a la variabilidad entre los sujetos en una cohorte aumenta (es decir, con un mayor rango de valores). La correlación puede ser excelente, incluso cuando la predicción de los valores de referencia por el sustituto es pobre.
Fuente:
Chen H, Sullivan G, Quon MJ. La evaluación de la exactitud de predicción de QUICKI como sustituto de un índice de sensibilidad a la insulina mediante la calibración del modelo. De la Diabetes. 2005 Jul;54(7):1914-25.Con base en lo anterior se supone que debo responder cómo es posible tener una alta correlación, mientras que al mismo tiempo que 'los pobres' predicción de la capacidad, probablemente debido a la mayor rango de valores. La forma en que yo interpreto esto es un alto $R^²$ o $r$ & 'relativamente' de ancho intervalos de predicción. Mientras que anteriormente he visto que esto ocurra en un papel así, yo no se cómo es posible que cuando miro las fórmulas:
$$R^² = \frac{SSR}{SST}\qquad {\rm or} \qquad1 - \frac{SSE}{SSTO}$$
Y la variación que determina el ancho del intervalo:
$$\newcommand{\mean}{{\rm mean}}S^²({\rm prediction}) = MSE \frac{1 + 1/n + (X_h - X_{\mean})^² }{\sum(X_i - X_{\mean})^²}$$
Con $MSE$ es el error cuadrático, $X_h$ es el valor de $X$ para el cual desea configurar un intervalo de predicción, $X_{\mean}$ es la media de todos los $X$ valores $X_i$ es el valor de $X$ en la observación $i$. A mi entender, si nosotros tenemos el mismo tamaño de la muestra ($N$) pero para una amplia gama de $X$s, entonces su $R^²$ puede aumentar como $SSR$ aumenta.
Pero, al mismo tiempo, debido a la amplia gama de $X$s $S^²({\rm prediction})$ también disminuirá a medida que el denominador en la fórmula de la $S^²({\rm prediction})$ se hace más grande. También, si $SSR$ aumenta mientras que $SSTO$ sigue siendo el mismo, esto implica también el $SSE$ disminuye.
Por lo tanto, tengo derecho a decir que esto ($R^²$ alto, predicciones pobres) sólo puede ocurrir cuando el $MSE$ permanece sin cambios y es relativamente alto, mientras que $SSR$ $SSTO$ de aumento (de modo que su $R^²$ aumenta)?
O debo decir, que las proporciones de todos los elementos de la $R^²$ la fórmula (es decir: $SSR, SSTO, SSE$) siguen siendo los mismos, pero el incremento en números absolutos. De modo que el MSE aumenta el $S^²({\rm prediction})$, tener menos de predicciones precisas, mientras que $R^²$ sigue siendo alta?
Respuestas
¿Demasiados anuncios?Como estado, $R^2 = 1-SSE/SST$, donde SSE es la suma de los cuadrados de los residuos del modelo y SST es la suma de los cuadrados de los residuales de un modelo simple que sólo predice el promedio de la variable de respuesta para cada observación.
Considere la posibilidad de dos modelos de regresión. La primera tiene datos en un relativamente pequeño de la gama:
dat <- data.frame(x=1:10, y=c(2, 1, 4, 3, 6, 5, 8, 7, 10, 9))
plot(dat)
Tenemos un $R^2$ de 0.88, con ESS = 9.7 y SST = 82.5.
Ahora añadir el punto x=100, y=100 y vuelva a ejecutar el experimento:
dat2 <- data.frame(x=c(1:10, 100), y=c(2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 100))
plot(dat2)
El segundo modelo ha $R^2$ de 0.999, con ESS = 10.0 y SST = 8201. El ajuste del modelo no ha mejorado realmente (ambos modelos cuentan con un RMSE de aproximadamente 1). Sin embargo, el $R^2$ ha mejorado considerablemente debido a que la simple referencia de conducción SST es mucho peor en el segundo caso. En lugar de la predicción de la sensibilidad del valor de 5.5 para todas las observaciones que hicimos en el primer caso, ahora es la predicción de 14.1.
Ahora vemos que los "datos" (alias de una amplia gama de variables de respuesta) puede causar SST a ser mucho peor que el "estrecho de datos", causando la $R^2$ a mejorar sin más de cerca el ajuste del modelo.
Si la variabilidad entre los sujetos aumenta, entonces la variabilidad dentro de los sujetos disminuye, es decir, el intraindividuales el error de medición es mayor. Por ejemplo, con la resistencia a la insulina a menudo utilizamos el HOMA-IR, que es un gran marcador, ya que sólo requiere una medida de ayuno de la glucosa/insulina a lo largo del tiempo... pero si se mide de la misma individuales mañana, tendría una predicción diferente, como con la presión arterial, la proteína de la urea, etc. Clínicamente, se basan en mediciones múltiples de imprecisa marcadores para tomar decisiones. Si usted predecir una variable marcador dentro de un individuo bien, aún así no se dice mucho acerca de ese individuo en general.