2 votos

regresión lineal para dummies

Estoy tratando de entender la regresión lineal. Tengo un conocimiento limitado en matemáticas (Álgebra I) pero aún así quiero ser capaz de aprender y entender qué es esto. No necesito saber toda la matemática que rodea a la regresión lineal, pero una comprensión básica de trabajo sería genial. ¿Puede alguien darme una fórmula sencilla, un ejemplo y una explicación de lo que son todos los símbolos y variables de la regresión lineal básica?

Gracias

3voto

Will Fisher Puntos 721

Una de las más sencillas es la interpolación por mínimos cuadrados. No voy a explicar cómo se deriva porque eso requiere cálculo. Pero digamos que quieres encontrar una línea $$y=ax+b$$ que mejor se ajusta a los puntos de datos $$(x_1,y_1),(x_2,y_2),...,(x_n,y_n)$$ Entonces la interpolación por mínimos cuadrados te dice que quieres minimizar la suma de los cuadrados de las desviaciones, $D$ de los valores observados y los valores que predeciría la línea de mejor ajuste. Es decir, se quiere minimizar $$D(a,b)=\sum_{i=1}^{n}(y_i-[ax_i+b])^2$$ Y ahí es donde entra el cálculo, pero después de aplicar el cálculo se encuentra que el mejor $a$ y $b$ satisfacen el sistema de ecuaciones lineales $$(\sum_{i=1}^{n}x_i^2)a+(\sum_{i=1}^{n}x_i)b=\sum_{i=1}^{n}x_iy_i$$ $$(\sum_{i=1}^{n}x_i)a+nb=\sum_{i=1}^{n}y_i$$ Que por supuesto, aunque las sumas parezcan intimidantes, son esencialmente sólo constantes que se pueden calcular dados sus puntos de datos.
Además, dividiendo cada ecuación por $n$ esto también puede expresarse como el sistema $$\bar{s}a+\bar{x}b=\bar{p}$$ $$\bar{x}+b=\bar{y}$$ donde $\bar{x}$ y $\bar{y}$ son las medias de $x_i$ y $y_i$ respectivamente, $\bar{s}$ es la media de los cuadrados de los $x_i$ s, y $\bar{p}$ es la media de los productos de $x_i$ y $y_i$ .

Bono No entraré en muchos detalles aquí, pero resulta que este método también puede, con bastante facilidad, aplicarse para encontrar la ecuación cuadrática mejor ajustada, así como las funciones exponenciales mejor ajustadas, esa es otra razón por la que este método es tan ampliamente utilizado. Leer más

1voto

David G. Stork Puntos 2614

Una cifra ayuda. El azul muestra un conjunto de puntos (( $x_1,y_1$ ), $(x_2, y_2)$ ...) y en rojo el ajuste por mínimos cuadrados:

enter image description here

Dados los datos, se quiere encontrar la función lineal (recta) de mejor ajuste que minimice la suma de los cuadrados de las distancias verticales de cada punto a la recta.

Si sus datos son tridimensionales, la solución lineal de mínimos cuadrados puede visualizarse como un plano.

Y así sucesivamente, hacia dimensiones superiores.

0voto

Debra Puntos 2729

Fíjate en los cuatro puntos rojos de la imagen de abajo. Imagina que dibujas una línea azul que los atraviesa. Quieres dibujar la mejor línea que pueda pasar por los puntos. La técnica más sencilla es el ajuste por mínimos cuadrados. Para cada punto, sube o baja hasta llegar a una línea azul: este segmento discontinuo te ayuda a construir un pequeño cuadrado (azul pálido). Así obtienes cuatro cuadrados, cuya área total forma una determinada cantidad. Esta cantidad depende de la posición de la línea azul, y puede calcularse fácilmente a partir de los puntos $(x_i,y_i)$ la pendiente $a$ y la intercepción $b$ . Esta cantidad se puede minimizar para una determinada pendiente $a_{\textrm{min}}$ e interceptar $b_{\textrm{min}}$ .

Esto es exactamente la regresión lineal (al mínimo cuadrado).

Sum  of squares

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X