10 votos

Cómo comprobar si mi modelo de regresión es bueno

Una manera de encontrar la precisión del modelo de regresión logística usando 'glm' es encontrar complot de las AUC. ¿Cómo comprobar la misma para el modelo de regresión con variable respuesta continua (familia = 'gaussiana')?

¿Qué métodos se utilizan para verificar qué tan bien encaja mi modelo de regresión de los datos?

4voto

Boris Tsirelson Puntos 191

Me gusta validación cruzada de mis modelos de regresión para ver lo bien que generalizar a los nuevos datos. Mi métrica de elección es el error absoluto medio en la cruz-datos validados, pero la raíz del error cuadrático medio es más común e igual de útil.

No me parece que R2 para ser un buen indicador de lo bien que su modelo se ajusta a los datos de entrenamiento, como casi cualquier error métricas calculadas sobre los datos de entrenamiento, serán propensos a través de la colocación. Si usted debe calcular R2 en el conjunto de entrenamiento, sugiero usar el R2 ajustado.

2voto

user2735206 Puntos 51

Yo sugeriría una breve búsqueda en el "modelo de regresión lineal de diagnóstico" como punto de partida. Pero aquí están algunos de los que me gustaría sugerir que compruebe:

Asegúrese de que los supuestos sean cumplidos de forma satisfactoria

  • Uso de diagramas de dispersión o el componente más residual de la trama para examinar la relación lineal entre el predictor independiente(s) y la variable dependiente.

  • Componer una trama con estandarizado residual versus el valor predicho de y asegurarse de que no hay punto extremo con muy alta residual, y la propagación de los residuos es en gran parte similar a lo largo de el valor de la predicción, así como la difusión de gran parte igualmente por encima y por debajo de la media de los residuales, cero.

  • También puede cambiar el eje de las y a los residuos de$^2$. Este diagrama ayuda a la identificación de desigualdad de la varianza.

  • Re-examinar el estudio de diseño para garantizar que el supuesto de independencia es razonable.

  • Recuperar el factor de inflación de la varianza (VIF) o la tolerancia de estadísticas para examinar la posible colinealidad.

Examinar el potencial de influyentes punto(s)

  • Comprobación de las estadísticas, tales como Cook D, DFits o DF Beta para saber si un determinado punto de datos está cambiando drásticamente sus resultados de la regresión. Usted puede encontrar más aquí.

Analizar el cambio en $R^2$ y Ajustado $R^2$ estadísticas

  • Siendo el coeficiente de regresión suma de cuadrados suma de cuadrados total, $R^2$ puede decirle cuántas % de la variabilidad en la variable dependiente se explican por el modelo.
  • Ajusta $R^2$ se puede utilizar para comprobar si la suma adicional de plazas trajo a mi la predicción adicional(s) es realmente vale la pena los grados de libertad que va a tomar.

Verificación necesarios interacción

  • Si hay un principal predictor independiente, antes de hacer cualquier interpretación de su efecto independiente, compruebe si está interactuando con las otras variables independientes. La interacción, si se deja sin corregir, pueden sesgar su estimación.

Aplicar su modelo a otro conjunto de datos y comprobar su rendimiento

  • También se puede aplicar la fórmula de regresión para otros separar los datos y ver qué tan bien predice. El gráfico como el gráfico de dispersión y las estadísticas como % de la diferencia del valor observado puede servir como un buen comienzo.

1voto

noah Puntos 61

Puede utilizar $R^2$ para examinar qué tan bien el modelo ajusta a los datos del entrenamiento. Esto le indicará qué porcentaje de la varianza de los datos se explican por el modelo.

Sugiero usar RMSE (error de raíz cuadrada media) de tus predicciones en su conjunto en comparación con el valor real de pruebas. Se trata de un método estándar de presentación de informes de error de predicción de una variable continua.

0voto

hstoerr Puntos 698

Estoy acostumbrado a la verificación de la forma funcional de mis parámetro estimador por el trazado de un no-paramétrico (por ejemplo, un núcleo de regresión) o semi-paramétrico de estimación y comparación con la paramétrico de módulos de la curva. Creo que este es el primer paso a menudo más rápido (y tal vez más profundas) de incluir términos de interacción o superior-órdenes de términos.

El paquete de R np ofrece muchas agradable no-paramétricos y semi-paramétrica de funciones, y su Viñeta está bien escrito: http://cran.r-project.org/web/packages/np/vignettes/np.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X