Función de coste en la regresión lineal OLS

Question

Función de coste en la regresión lineal OLS

Preguntado el 5 de Junio, 2015: Cuando se hizo la pregunta
22301 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy un poco confundido con una conferencia sobre regresión lineal que dio Andrew Ng en Coursera sobre machine learning. Allí dio una función de coste que minimiza la suma de cuadrados como:

$$ \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 $$

Entiendo dónde está el $\frac{1}{2}$ viene de. Creo que lo hizo para que al realizar la derivada sobre el término cuadrado, el 2 del término cuadrado se cancelara con la mitad. Pero no entiendo de dónde viene la $\frac{1}{m}$ vienen de.

¿Por qué tenemos que hacer $\frac{1}{m}$ ? En la regresión lineal estándar, no la tenemos, simplemente minimizamos los residuos. ¿Por qué lo necesitamos aquí?

Preguntado el 5 de Junio, 2015 por Mohammadreza

Answer 1

2 Respuestas

Answer 2

35voto

Peter Puntos 11

Como parece que te das cuenta, ciertamente no necesitamos el $1/m$ para obtener una regresión lineal. Por supuesto, los minimizadores serán exactamente los mismos, con o sin él. Una razón típica para normalizar por $m$ es para que podamos ver la función de coste como una aproximación al "error de generalización", que es la pérdida cuadrada esperada en un nuevo ejemplo elegido al azar (no en el conjunto de entrenamiento):

Supongamos que $(X,Y),(X^{(1)},Y^{(1)}),\ldots,(X^{(m)},Y^{(m)})$ se muestrean i.i.d. de alguna distribución. Entonces, para grandes $m$ esperamos que $$ \frac{1}{m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 \approx \mathbb{E}\left(h_\theta(X)-Y\right)^2. $$

Más precisamente, por la Ley Fuerte de los Grandes Números, tenemos $$ \lim_{m\to\infty} \frac{1}{m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 = \mathbb{E}\left(h_\theta(X)-Y\right)^2 $$ con probabilidad 1.

Nota: Cada una de las afirmaciones anteriores se refiere a cualquier $\theta$ , elegido sin mirar el conjunto de entrenamiento. Para el aprendizaje automático, queremos que estas afirmaciones se mantengan para algunos $\hat{\theta}$ elegido en base a su buen rendimiento en el conjunto de entrenamiento. Estas afirmaciones pueden seguir siendo válidas en este caso, aunque tenemos que hacer algunas suposiciones sobre el conjunto de funciones $\{h_\theta \,|\, \theta \in \Theta\}$ y necesitaremos algo más fuerte que la Ley de los Grandes Números.

Respondido el 5 de Junio, 2015 por Peter (11 Puntos )

Answer 3

30voto

eldering Puntos 3814

Usted no tienen a. La función de pérdida tiene el mismo mínimo tanto si se incluye el $\frac{1}{m}$ o suprimirlo. Sin embargo, si se incluye, se obtiene la bonita interpretación de minimizar (una mitad) el media error por punto de datos. Dicho de otro modo, está minimizando el error tasa en lugar del error total.

Considere la posibilidad de comparar el rendimiento en dos conjuntos de datos de diferente tamaño. La suma bruta de errores al cuadrado no es directamente comparable, ya que los conjuntos de datos más grandes tienden a tener más errores totales sólo por su tamaño. En cambio, el error medio por punto de datos es .

¿Puede explicar un poco más?

Claro. Tu conjunto de datos es una colección de puntos de datos $\{ x_i, y_i \}$ . Una vez que tenga un modelo $h$ el error de mínimos cuadrados de $h$ en un solo punto de datos es

$$ (h(x_i) - y_i)^2 $$

esto es, por supuesto, diferente para cada punto de datos. Ahora, si simplemente sumamos los errores (y multiplicamos por la mitad por la razón que describes) obtenemos el error total

$$ \frac{1}{2} \sum_i (h(x_i) - y_i)^2 $$

pero si dividimos por el número de sumandos obtenemos el media error por punto de datos

$$ \frac{1}{2m} \sum_i (h(x_i) - y_i)^2 $$

La ventaja del error medio es que si tenemos dos conjuntos de datos $\{ x_i, y_i \}$ y $\{ x'_i, y'_i \}$ de diferentes tamaños entonces podemos comparar los errores medios pero no los errores totales. Porque si el segundo conjunto de datos es, digamos, diez veces mayor que el primero, cabría esperar que el error total fuera unas diez veces mayor para el mismo modelo. Por otro lado, el error medio divide el efecto del tamaño del conjunto de datos, por lo que cabría esperar que los modelos de rendimiento similar tuvieran errores medios similares en conjuntos de datos diferentes.

Respondido el 5 de Junio, 2015 por eldering (3814 Puntos )

Función de coste en la regresión lineal OLS

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Función de coste en la regresión lineal OLS

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: