Lo que sugiero es lo siguiente. Si puede extraer la edad en un formato continuo, podría resultar ventajoso:
- Los datos son más sólidos.
- La forma en que está creado actualmente hace que sea ambiguo cuándo son 20, 25, etc., ya que pertenecen a dos grupos simultáneamente.
- advertencia - Si existe una razón lógica o teórica para agrupar Edades, hágalo. Por ejemplo, si algunos puntos de edad tienen un significado específico, como 21 años (edad para beber), 65 años (pensión), 6 años (entrada en la escuela primaria) o cualquier otro, la agrupación de los puntos de edad puede resultar útil. es lo que quieres hacer.
Ahora, si tienes dos variables de intervalo ( Proportion
y Age
), los trazaría para ver la conexión visualmente. Dado que se trata de sólo dos variables (sin otros controles), no hay necesidad real de regresión (Voy a ir allí en un segundo). --Tenga en cuenta que el siguiente se basa en una conexión lineal (que parece ser el caso con sus datos)
Puede medir la correlación (Pearson's $r$ ) :
> cor.test(df$Proportion,df$Age)
Pearson's product-moment correlation
data: df$Proportion and df$Age
t = 8.4717, df = 8, p-value = 2.884e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.7917609 0.9880651
sample estimates:
cor
0.9485315
Esto significa que la conexión ( $r=0.949$ ) entre las dos variables es muy muy fuerte (y significativo). Con un $95%$ azar, la correlación en la población real está entre $0.791$ y $0.988$
Retrocediendo estos:
> summary(lm(Proportion~Age, data=df))
Call:
lm(formula = Proportion ~ Age, data = df)
Residuals:
Min 1Q Median 3Q Max
-0.097030 -0.032030 0.009212 0.018409 0.106545
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.075091 0.050445 -1.489 0.175
Age 0.010642 0.001256 8.472 2.88e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.05705 on 8 degrees of freedom
Multiple R-squared: 0.8997, Adjusted R-squared: 0.8872
F-statistic: 71.77 on 1 and 8 DF, p-value: 2.884e-05
Esto permite hablar de la relación en términos reales: El coeficiente de edad ( $0.01$ ) significa que cada aumento de un año en la Edad, aumenta la Proporción media prevista en $0.01$ . $R^2=0.899$ significa que Age explica $89.9%$ de la varianza en Proporción.
Si desea trazarla con la línea de regresión (utilizando ggplot2
aquí):
ggplot(df, aes(x=Age, y=Proportion)) + geom_point(size=4) + geom_smooth(method = lm)