1 votos

Creación de un modelo lineal / regresión donde todos los datos son factores / dados en proporción (datos incluidos)

Ejemplo de datos:

df <- data.frame(Proportion = c(0.1,0.15,0.22,0.20,0.29,0.37,0.41,0.36, 0.47,0.67),
                 Age  = c("15-20", "20-25", "25-30", "30-35", "35-40", "40-45", 
                          "45-50", "50-55", "55-60", "60-65"))
plot(df$Proportion, ylab = "Proportion")

Propotion vs Age

Según el gráfico, la proporción parece aumentar con la edad. ¿Cuál es la forma correcta de crear un modelo a partir de estos datos para ver cómo aumenta la proporción con la edad? De alguna manera también distinguir la diferencia de proporción entre una persona de 15 años y una de 20 años. Se supone que la edad es proporcional.

Si alguien sabe de artículos o libros que cubre este problema, por favor hágamelo saber como he buscado, pero no he encontrado nada. En mi conjunto de datos original también tengo el número de observaciones dentro de cada grupo.

0voto

Yuval Sp Puntos 316

Lo que sugiero es lo siguiente. Si puede extraer la edad en un formato continuo, podría resultar ventajoso:

  1. Los datos son más sólidos.
  2. La forma en que está creado actualmente hace que sea ambiguo cuándo son 20, 25, etc., ya que pertenecen a dos grupos simultáneamente.
  3. advertencia - Si existe una razón lógica o teórica para agrupar Edades, hágalo. Por ejemplo, si algunos puntos de edad tienen un significado específico, como 21 años (edad para beber), 65 años (pensión), 6 años (entrada en la escuela primaria) o cualquier otro, la agrupación de los puntos de edad puede resultar útil. es lo que quieres hacer.

Ahora, si tienes dos variables de intervalo ( Proportion y Age ), los trazaría para ver la conexión visualmente. Dado que se trata de sólo dos variables (sin otros controles), no hay necesidad real de regresión (Voy a ir allí en un segundo). --Tenga en cuenta que el siguiente se basa en una conexión lineal (que parece ser el caso con sus datos)

Puede medir la correlación (Pearson's $r$ ) :

> cor.test(df$Proportion,df$Age)

Pearson's product-moment correlation

data:  df$Proportion and df$Age
t = 8.4717, df = 8, p-value = 2.884e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.7917609 0.9880651
sample estimates:
      cor 
0.9485315 

Esto significa que la conexión ( $r=0.949$ ) entre las dos variables es muy muy fuerte (y significativo). Con un $95%$ azar, la correlación en la población real está entre $0.791$ y $0.988$

Retrocediendo estos:

> summary(lm(Proportion~Age, data=df))

Call:
lm(formula = Proportion ~ Age, data = df)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.097030 -0.032030  0.009212  0.018409  0.106545 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.075091   0.050445  -1.489    0.175    
Age          0.010642   0.001256   8.472 2.88e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.05705 on 8 degrees of freedom
Multiple R-squared:  0.8997,    Adjusted R-squared:  0.8872 
F-statistic: 71.77 on 1 and 8 DF,  p-value: 2.884e-05

Esto permite hablar de la relación en términos reales: El coeficiente de edad ( $0.01$ ) significa que cada aumento de un año en la Edad, aumenta la Proporción media prevista en $0.01$ . $R^2=0.899$ significa que Age explica $89.9%$ de la varianza en Proporción.

Si desea trazarla con la línea de regresión (utilizando ggplot2 aquí):

ggplot(df, aes(x=Age, y=Proportion)) + geom_point(size=4) + geom_smooth(method = lm)

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X