Datos: He introducido tus datos ($\pm$ errores de escritura) en R.
x = c(1,2,3,3, 4,5,6,3, 10,11,12,19, 20,21,22)
y = c(20.5,25.3,29.3,26.0, 32.8,35.2,41.2,26.0,
46.7,68.2,62.8,81.6, 80.4,63.5,100.9)
Resúmenes de datos:
summary(x); sd(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 3.000 6.000 9.467 15.500 22.000
[1] 7.633261 # SD x
summary(y); sd(y)
Min. 1st Qu. Median Mean 3rd Qu. Max.
20.50 27.65 41.20 49.36 65.85 100.90
[1] 25.14068 # SD y
Preguntaste sobre encontrar la correlación $r$ entre x
y y
. Aquí está:
cor(x,y)
[1] 0.9464411
plot(x,y, pch=20)
Procedimientos básicos de regresión: La correlación es alta y el gráfico de dispersión muestra una asociación lineal entre x
y y
. Por lo tanto, parece valioso hacer una regresión lineal de y
sobre x
. Mostraré algunos pasos iniciales para que puedas comenzar.
reg.out = lm(x ~ y)
summary(reg.out)
Call:
lm(formula = x ~ y)
Residuals:
Min 1Q Median 3Q Max
-3.8805 -0.9149 -0.3976 0.2575 7.4701
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.71743 1.49574 -3.154 0.00761 **
y 0.28736 0.02719 10.569 9.43e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.558 on 13 degrees of freedom
Multiple R-squared: 0.8958, Adjusted R-squared: 0.8877
F-statistic: 111.7 on 1 and 13 DF, p-value: 9.434e-08
Tanto la intersección como la pendiente de un modelo de regresión son significativas. Aquí hay un gráfico de la línea de regresión a través del gráfico de dispersión de datos. Así que encontrar el valor de $Y$ en la línea que corresponde a un valor de $x$ debería ayudarte a empezar con la predicción.
abline(lm(y~x), col="blue")
Te recomendaría consultar un libro de estadística, apuntes de clase o una de las muchas páginas en línea que se pueden encontrar buscando en Google regresión r
para interpretación y procedimientos adicionales. Quizás puedas empezar con esta página si necesitas ayuda en línea. Algunos de los enlaces 'Relacionados' en este sitio mencionados en el margen derecho junto a tu pregunta también pueden ser útiles.
En particular, deberías observar los residuos de la línea de regresión porque los puntos hacia el lado derecho del gráfico parecen variar más de la línea que los del lado izquierdo.