2 votos

¿Dividir el conjunto de datos por variable categórica o utilizarlo como variable ficticia/factorial?

Estoy buscando cualquier tipo de práctica recomendada o formas de abordar esta situación.

A menudo me encuentro con conjuntos de datos que tienen una variable categórica que me tienta a dividir el conjunto de datos principal en subconjuntos o a codificar como categórica.

Por ejemplo, puedo estar tratando de investigar el precio de un coche dependiendo de dónde se venda: Asia o Europa. Si estoy tratando de ejecutar una regresión OLS, bosque aleatorio, gbm, lasso, etc - ¿cuál es la mejor práctica o cosas que deben pasar por mi cabeza aquí.

Si, por ejemplo, la edad o las millas por galón de un coche se valoran de forma diferente en Asia y en Europa, ¿la variable factorial lo tendrá en cuenta en el modelo para producir resultados similares a los que se obtendrían si se dividiera en dos conjuntos de datos?

Sí, me doy cuenta de que la división por la variable categórica elimina la capacidad de "ver" directamente que las variables de impacto, pero más allá de esto estoy buscando orientación. Este es un ejemplo sencillo, pero a menudo se me plantea una situación como esta en la que necesito determinar cómo llegar a todas las diversas agrupaciones y conjuntos de datos de entrenamiento y lo que no.

5voto

andypa Puntos 23

En primer lugar, eche un vistazo a esta pregunta y respuesta que se acerca a lo que usted pide.

Si asume que Age o MPG se valoran de manera diferente en Asia y en Europa, entonces la simple adición de la variable ficticia en el modelo no resuelve esto. La variable ficticia sólo capta la nivel efecto y no el pendiente efecto. Esto se puede ver porque el maniquí no aparece en la derivada $\frac{\partial Price}{\partial Age}$ .

Sin pérdida de generalidad, suponga que sólo hay dos grupos tales que K=2 y una variable explicativa.

El modelo es, por tanto, el siguiente $y_i=\alpha+\beta_x*X_i+u_i$ donde se crea una variable ficticia $D$ de manera que se codifique el grupo 1 o el grupo 2.

Básicamente, tiene varias opciones de modelos:

  • $(y_i|D=0)=\gamma+\delta_x*X_i+u_i$ si $D=0$ (1)
  • $(y_i|D=1)=\kappa+\phi_x*X_i+u_i$ si $D=1$ (2)
  • $y_i=\mu + \nu*X_i + \pi*D+u_i$ (3)

Al dividir el conjunto de datos en dos partes, se tiene lo siguiente:

  • Sí, tiene un mejor ajuste de los datos que si simplemente añade la variable ficticia: tiene tanto un intercepto como una pendiente que es específica del grupo.
  • Por desgracia, tiene menos observaciones, lo que hace que sus estimaciones sean menos precisas.
  • Compara la suma de los residuos de los modelos 1 a 3. Es decir, $RSS_1+RSS_2<RSS_3$ Es mejor dividir el conjunto de datos.
  • Le site $R^2$ sin embargo, es mayor en el modelo tres que la suma ponderada de $R^2$ de los otros dos modelos.

Al interactuar completamente su modelo, se ve así:

$y_i=\alpha+\beta_D*D+\beta_x*X_i+\beta_{Dx}*D*X_i+u_i$ (4)

Tienes lo siguiente:

  • La intercepción y la pendiente son específicas del grupo
  • $RSS_1+RSS_2=RSS_4$ lo que significa que el modelo (4) se ajusta a los datos tan bien como dos modelos.

Obsérvese que la división o la interacción total implica diferencias para la estimación de la matriz de varianza-covarianza de los regresores. Cuando se interactúa totalmente, también se encuentra el problema de que el número de regresores aumenta rápidamente. Estas son cuestiones que también hay que tener en cuenta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X