¿qué medidas se miran para determinar el sobreajuste en la regresión lineal?

Question

¿qué medidas se miran para determinar el sobreajuste en la regresión lineal?

Preguntado el 22 de Enero, 2016: Cuando se hizo la pregunta
3745 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

¿Cuál de las siguientes NO es una medida válida de sobreajuste?

Suma de parámetros $\left(w_1+w_2+\ldots+w_n\right)$

Suma de los cuadrados de los parámetros $\left(w_1^2 + w_2^2 + \ldots +w_n^2\right)$

Rango de los parámetros, es decir, diferencia entre los parámetros máximo y mínimo

Suma de los valores absolutos de los parámetros $\left(|w_1| + |w_2| + \ldots + |w_n|\right)$

¿Puede alguien intentar explicármelo?

Preguntado el 22 de Enero, 2016 por Muller

Answer 1

1 Respuestas

Answer 2

7voto

Rusty Puntos 601

En primer lugar, permítanme describir un poco más el significado de sobreajuste en general. El sobreajuste significa que el modelo no sólo se ajusta a la relación entre la variable dependiente y la variable independiente, sino que también se ajusta al ruido aleatorio. He aquí un buen ejemplo de infraajuste, ajuste correcto y sobreajuste.

El ajuste de un modelo tan sobreajustado dará como resultado un error muy bajo en la predicción de sus datos de entrenamiento (o puede imaginarse que está utilizando el modelo ajustado por los datos para predecir los mismos datos, por supuesto cuanto más complejo sea el modelo menor será el error) pero un error muy alto cuando prediga NUEVOS datos (datos de prueba). El error puede definirse como $\sum(\hat{y} - y)^2$ donde $\hat{y}$ es el valor ajustado.

En general, no creo que ninguno de los métodos que mencionas en tu pregunta te ayude a prevenir o detectar el sobreajuste en un modelo de regresión lineal.

Por ejemplo, si está ajustando un modelo lineal entre la superficie de la casa (Y, en $m^2$ ) y el precio de la vivienda (X, en $k$ dólares). El modelo es como

$Y = \alpha + \beta X + \epsilon,$ donde $\epsilon \sim N(0, \sigma^2)$

Entonces, por ejemplo, la suma de parámetro es $\hat{\alpha} + \hat{\beta} + \hat{\sigma}$ si he entendido bien su pregunta.

Sin embargo, si se cambia la unidad de precio de la vivienda de $k$ dólares a millones de dólares, su $\hat{\beta}$ cambiará a $\hat{\beta}/1000$ . Así, la suma de los parámetros se reduce a $\hat{\alpha} + \hat{\beta}/1000 + \hat{\sigma}$ . Pero no se puede decir que uno de los modelos esté más sobreajustado que el otro, aunque cambie la suma de los parámetros.

Lo que suelo utilizar para evitar el sobreajuste es validación cruzada . La validación cruzada consiste en dividir los datos en varios subconjuntos. Para cada subconjunto, se utiliza como conjunto de prueba mientras que los demás se utilizan como conjunto de entrenamiento para ajustar un modelo y utilizarlo para predecir el conjunto de prueba y calcular el error de predicción para este conjunto de prueba. A continuación, se calcula la media de los errores de predicción entre todos los conjuntos de prueba y se obtiene el error de validación cruzada.

O para casos sencillos, utilizaría ajustado $R^2$ a partir de la salida de lm en r. Ajustado $R^2$ tiene en cuenta la complejidad de su modelo. La complejidad tenderá a reducir el $R^2$ .

Respondido el 22 de Enero, 2016 por Rusty (601 Puntos )

¿qué medidas se miran para determinar el sobreajuste en la regresión lineal?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿qué medidas se miran para determinar el sobreajuste en la regresión lineal?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: