Las variables categóricas tienen conjuntos finitos de valores discretos. Algunos ejemplos son el sexo (masculino/femenino), el país, el planeta, etc. A diferencia de las variables continuas, que pueden tomar un número infinito de valores diferentes. Por ejemplo, el peso, la longitud, la distancia, etc.
Tenga en cuenta que a veces se puede expresar información similar de forma categórica y continua; por ejemplo planet = earth
podría expresarse como distance to sun = 1 astronomical unit 150 million kilometers
. Sin embargo, no hay realmente ninguna manera de expresar 200 millones de kilómetros del sol en términos de planetas, porque no hay ningún planeta allí (Marte está a 228 millones de km del sol). Lo mismo para 201 millones de km, 202, etc. Todo lo que se puede decir sobre estas distancias en términos de planetas es planet = none
; no podías decir planet = 4/3×earth
o .88×Mars
porque no hay una forma significativa de multiplicar un planeta o cualquier otra variable categórica. En términos de planetas, estas distancias serían indistinguibles, pero, por supuesto, tienen sentido como distancias distintas del sol cuando se expresan como tales, como una variable continua.
También se pueden expresar variables continuas con una precisión arbitraria (por ejemplo, una unidad astronómica es 149.597.871 km, no exactamente 150 millones de km). Por el contrario, no hay forma de expresar planet = earth
más precisamente; la Tierra es exactamente la Tierra, ni más ni menos. Además, no tendría sentido decir que cualquier otro planeta es "más" o "menos" que la Tierra si planet
es una variable nominal. Sin embargo, podría codificarse como una variable ordenada (ordinal): los planetas se ordenan en términos de distancia al sol, volumen, número de lunas, etc. Todos estos números son continuos en sus propios términos (o al menos los recuentos, que son discretos pero no categóricos), pero no en términos de planetas. Por ejemplo, si los planetas se ordenan por distancia al sol o por número de lunas, mars > earth > venus
. Si los planetas se ordenan por volumen, earth > venus > mars
. No es necesario ordenar las variables categóricas, y tal vez algunas no puedan ser ordenadas, pero añadir un orden no las hace menos categóricas.
Como dice la Wikipedia, las distribuciones categóricas son generalizaciones de la distribución Bernoulli a más de dos valores posibles (la distribución Bernoulli es estrictamente binaria). La distribución Bernoulli es también un caso especial de la distribución binomial, pero yo no llamaría categórica a la distribución binomial (es discreta, pero una variable de recuento, por lo que las distancias entre valores están definidas). Las distribuciones multinomiales pueden confundirse con las distribuciones categóricas, pero La Wikipedia advierte de ello .