5 votos

¿Cómo debemos usar el grado de libertad de un modelo?

Después de leer un montón de artículos y tutoriales en Internet, puedo hacerme a la idea de que el grado de libertad de algún tipo de modelos (por ejemplo, el modelo de regresión.)

Sin embargo, tengo otra pregunta. Después de conocer el df de un modelo, ¿cómo debemos usar? Y por qué este número es útil?

Cuando se utiliza el paquete de Python statsmodels para resumir un conjunto de datos, esta herramienta salidas tanto en el df de los residuos y el df de la modelo. ¿Por qué debemos necesitan esta información, mientras que la evaluación del modelo?

6voto

Gumeo Puntos 1671

Cuando se trata con modelos predictivos es tal vez mejor en algún sentido pensar que el número de parámetros en el modelo. El número de parámetros de la muestra, en cierto sentido, lo flexible que es el modelo. Los parámetros pueden ser dependientes, por ejemplo, en los modelos jerárquicos, entonces usted necesita para buscar en el número efectivo de parámetros, que es otra forma de cuantificar la flexibilidad del modelo.

Esto es principalmente para dar cuenta de sobreajuste, (aunque eso no es toda la verdad).

Imagine que usted es el ajuste de una n-ésimo polinomio de grado n+1 puntos de datos. El polinomio tiene n+1 parámetros y llegará a todos y cada uno de los puntos de datos. El polinomio puede tener enormes parámetros y fluctúan muy arriba y hacia abajo. Esto probablemente no es el verdadero modelo subyacente en la mayoría de los casos.

Por lo tanto usted puede, por ejemplo, la regularización de los parámetros, por ejemplo, al penalizar la norma de los parámetros. Esto reduce el número efectivo de parámetros, lo que limita los grados de libertad en el modelo. Otra opción es poner un menor grado del polinomio y ver cómo se ve.

Si un modelo tiene un grado de libertad $p$, se necesitarían al menos $p$ puntos de datos para obtener una estimación de los parámetros en el modelo, de lo contrario usted tiene un sistema subdeterminado. Si la instalación de algún $n$ puntos de datos con grandes errores que normalmente se desea $n$ a ser algo mucho más grande de lo $p$. De lo contrario, corres el riesgo de sobreajuste. En el caso de que se trata de "aceptar" para tener $n$ cerca de $p$ es cuando los errores son muy pequeños y los que realmente saben el verdadero modelo subyacente, que en la mayoría de los casos no es cierto.

Los grados de libertad de la prueba estadística es el número de $\nu=n-p$, por lo que no son completamente lo mismo, pero muy estrechamente relacionados.

Para resumir

Así que si los grados de libertad en el modelo están en la escala del número de puntos de datos, lo más probable es que overfit y tienen muy malas predicciones.

Este blog resume bastante bien.

Para entender completamente grados de libertad, en el sentido de las pruebas y estimaciones de los parámetros, echa un vistazo a este post CV

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X