He creado un modelo de regresión OLS estándar para estimar el precio de la vivienda y un grupo de variables describen el porcentaje del grupo de edad de la población en un barrio concreto (que va de 0 a 100).
Estas variables son el porcentaje de la población de un determinado barrio que pertenece a un grupo de edad. Por ejemplo, un valor de 23 para la edad del vecindario de 0 a 14 años significaría que el 23% de la población del vecindario tiene entre 0 y 14 años. Las variables se presentan a continuación:
- Barrio Edad 0-14 %
- Barrio Edad 15-24 %
- Barrio Edad 25-44 %
- Barrio Edad 44-64 %
- Barrio Edad >64 %
Ahora sé que como son valores porcentuales, tengo que quitar al menos uno de ellos por dependencia lineal perfecta, por ejemplo: Barrio Edad 0-14 % = 1 - SUM(Todos los demás % de edad)
He eliminado la variable Edad del Vecino >64 % y he estimado los coeficientes. Los coeficientes estimados para cada variable son los siguientes (el precio de la vivienda se ha transformado en logaritmo para que la interpretación sea ${\Delta}P\% = {\beta}_{i} * {\Delta}X_i\%$ ):
- Intercepción: 11.1917
- Barrio Edad 0-14 %: 0,0229
- Barrio Edad 15-24 %: 0,0121
- Barrio Edad 25-44 %: 0,0002
- Barrio Edad 44-64 %: 0,008
Como he eliminado una de las variables, ¿cómo interpretaría ahora el efecto de la edad del vecindario >64 % sobre el precio de la vivienda? Tenga en cuenta que se trata de variables continuas que van de 0 a 100.