5 votos

¿En qué casos está bien usar predictores categóricos con muchos niveles en regresión?

Si $n\gg p$ ($n$ es el número de observaciones, $p$ es el número de dimensiones), es siempre ACEPTAR el uso de los predictores categóricos con muchos niveles en la regresión? Aquí $p$ es también bastante alta que la de los predictores categóricos tienen muchos niveles, a pesar de $n$ ahora supera $p$. O hay una mejor manera?

Esto ocurrió en uno de los datos científico de las preguntas de la entrevista que he leído en línea hace un rato, pero después de pensarlo, yo todavía no puede averiguar lo que sería una buena respuesta a la misma.

Cualquier idea/referencias sería muy apreciada.

5voto

RGA Puntos 113

Nada es "siempre bien", como siempre hay excepciones. Por ejemplo, los modelos logit y probit se meten en problemas cuando una o más categorías de su predictor perfectamente predecir el resultado. Esto puede suceder fácilmente, independientemente de cuán grande es su tamaño de muestra.

Otro caso en el que el modelo sería algo problemático se produce cuando n es grande, pero el número de observaciones en uno o más categorías es muy pequeña. Esto podría ser problemático cuando su interés se centra en estas categorías pequeñas.

3voto

Yuval Sp Puntos 316

Creo que no hay una respuesta definitiva. Si no hay ninguna puramente estadístico temas (Ver Martín Buis " respuesta) que este es más problema teórico.

La forma en que lo veo, es que mientras que muchas de las propiedades son, naturalmente, multi-categórica, no siempre hay una razón lógica de hacer uso de todos los datos. Se puede hacer un modelo de engorroso, y podría ser contraproducente. Supongamos que tenemos una variable $x_1$ $d$ niveles. Si $x_1$ es una variable de control, que no podría hacer una gran diferencia en el uso de como es (además de ser un ojo-dolor). Si, sin embargo, $x_1$ es un efecto que es teóricamente interesante, algunos de reducción podría estar en orden. Voy a elaborar. El uso de $x_1$ como variable explicativa significa que tenemos $d-1$ categorías, cada una con un coeficiente que es la diferencia entre ella y la categoría de referencia. Si estamos decididos a entender las diferencias entre los países del mundo y de Japón, que bien, pero esto transmite poca información sobre la relación entre el otro $d-1$ categorías y de ellos mismos. Cuando estamos interesados en la medición de las interacciones con $x_1$, después de haber muchas categorías hace que sea muy molesto para interpretar. Así que a menudo sería prudente pensar que si no hay lógica detrás de la fusión de las categorías. Tal vez los países de Asia Oriental pueden ir de la mano, tal vez los países de la UE (tal vez no). Tal vez los clientes que son nuevos son whats interesante y comparación de los mismos a las distintas categorías de antigüedad no es tan interesante como para no nuevos. Muchas veces aglutinación de las categorías va en detrimento de la especificidad, sino de ganar en claridad - y que no es una mala cosa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X