33 votos

¿Es la hora del día una variable categórica?

¿Es "hora del día" donde el valor puede ser 0, 1, 2, ..., 23 una variable categórica? Me inclinaría a decir que no, ya que 5, por ejemplo, está 'más cerca' de 4 o 6 que de 3 o 7.

Pero por otro lado, existe la discontinuidad entre 23 y 0.

Entonces, ¿se considera en general como categórica o no? Ten en cuenta que 'hora' es una de las variables independientes, no la variable que estoy tratando de predecir.

8 votos

¿Qué estás tratando de lograr? Si estás ajustando un modelo, ¿es hora un covariable o la respuesta, por ejemplo?

2 votos

Podrías usar una variable ficticia para cada hora si tienes suficientes grados de libertad para usar (es decir, tratar como categórico), o usar los primeros términos de Fourier si no los tienes. En general, piensa en la mejor forma de representar una posible relación con la respuesta: una sola variable ficticia que marque cuándo están abiertas las tiendas podría servir.

0 votos

Algo como la hora puede ser tratado como "categórico" o "numérico" dependiendo de lo que funcione mejor. No hay una respuesta correcta o incorrecta en general, depende de lo que funcione mejor. Recomiendo probar diferentes cosas y ver qué funciona mejor en tu situación.

42voto

Cheekysoft Puntos 239

Dependiendo de lo que quieras modelar, las horas (y muchas otras atributos como las estaciones) son variables cíclicas ordinales. En el caso de las estaciones, puedes considerarlas más o menos categóricas, y en el caso de las horas también puedes modelarlas como continuas.

Sin embargo, utilizar las horas en tu modelo de una forma que no tenga en cuenta la ciclicidad no será fructífero. En su lugar, trata de idear algún tipo de transformación. Usando las horas, podrías utilizar un enfoque trigonométrico mediante

xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)

Así que en su lugar usarías xhr y yhr para modelar. Mira este post por ejemplo: Uso de predictores circulares en regresión lineal.

1voto

Matt Puntos 588

La hora del día no está mejor representada como una variable categórica, ya que hay un orden natural de los valores. El color del cabello, por ejemplo, es categórico, porque el orden de las categorías no tiene significado - {rojo, castaño, rubio} es tan válido como {rubio, castaño, rojo}. La hora del día, por otro lado, tiene un orden natural - las 9am están más cerca de las 10am o 8am que de las 6pm. Es mejor pensada como una variable ordinal discreta. Tiene la característica adicional de ser cíclica, ya que las 12am sigue a las 11pm y precede a la 1am.

0voto

nasirbest Puntos 111

Teóricamente, esto depende de cómo formateas la variable, es decir, puede ser "continua" (modelada con un solo coeficiente) o categórica (un coeficiente por "hora" del día). También podrías hacer una mezcla de ambas, por ejemplo, funciones a trozos.

Prácticamente, como 0 y 23 son esencialmente la misma "hora" del día, consideraría agrupar períodos del día en agrupaciones más grandes, homogéneas y creíbles. Por ejemplo, en incrementos de 8 horas - 8am-4pm, 4pm-12am, y 12-8am.

5 votos

0 y 23 son horas distintas. 0 y 24 serían la misma hora.

0 votos

Por cierto, estoy asumiendo según el comentario de Gung que la hora del día es una variable independiente, no la variable dependiente modelada. Mi punto es que 0 y 23 no son tan diferentes en realidad; ¿dirías que hay una diferencia estadística entre tu evento modelado ocurriendo a las 23:59 versus a las 0:01?

1 votos

No estoy seguro de qué problema se supone que soluciona tirar información. Ver ¿Cuál es el beneficio de descomponer una variable predictora continua?.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X