19 votos

¿Tomamos realmente una línea aleatoria en el primer paso de la regresión lineal?

random_line

Esta es la captura de pantalla que tomé de un vídeo sobre regresión lineal realizado por Luis Serrano. Explicaba la regresión lineal paso a paso (versión scratch). El primer paso era empezar con una línea aleatoria.

La cuestión es si realmente trazamos una línea aleatoria, o si en su lugar realizamos algún cálculo como tomar una media de los valores de y y trazar inicialmente una línea. Porque si tomamos cualquier línea aleatoria puede que no caiga cerca de ningún punto. Tal vez caiga en el 3er cuadrante del sistema de coordenadas donde no hay puntos en este caso.

3voto

Cliff AB Puntos 3213

Para que quede claro, hay una solución de forma cerrada para la regresión lineal que casi siempre se utiliza para encontrar el ajuste, por lo que no hay necesidad de una "conjetura" para empezar en absoluto. Este ejemplo es más ilustrativo de cómo funcionan los algoritmos estocásticos que de cómo ajustar mejor un modelo de regresión lineal.

Sin embargo, la regresión lineal es realmente la excepción a la regla en este caso. Para ajustar la mayoría de los modelos, no disponemos de una solución de forma cerrada y do es necesario empezar con un conjunto inicial de parámetros y luego mejorarlos iterativamente.

En estos casos, suele ocurrir que elegir un buen punto de partida, como has sugerido, ayudará a que el algoritmo converja más rápido. Para algunos problemas, elegir un buen punto de partida es crucial para un rendimiento aceptable (tanto en términos de velocidad de convergencia como de probabilidad de que el algoritmo converja a una respuesta aceptable), mientras que para otras combinaciones de modelo/algoritmo, la mejora puede ser tan pequeña que no merezca la pena el esfuerzo extra para encontrar unos buenos valores de partida e inicializar con valores aleatorios está bien.

3voto

Phred Menyhert Puntos 714

Algunos métodos de regresión robusta, en particular RANSAC ( Consenso de la muestra aleatoria ) se basan en el ajuste de líneas aleatorias. Pero, por supuesto, esto no es ni mucho menos lo que ocurre aquí - estoy de acuerdo con los que dicen que

  • es una herramienta pedagógica
  • el problema puede resolverse exactamente ( mínimos cuadrados óptimos )
  • recuerda al descenso por gradiente

En los métodos robustos antes mencionados, en realidad se utiliza la regresión exacta para ajustar una línea a un subconjunto aleatorio de puntos de datos, disminuyendo así la influencia de los valores atípicos (a los que la solución exacta de la regresión lineal por mínimos cuadrados es extremadamente sensible).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X