8 votos

¿Los datos categóricos sólo pueden tener un número finito o contablemente infinito de valores?

Me pregunto si datos categóricos por definición sólo puede tomar un número finito o contablemente infinito de valores? ¿Y no más, es decir, no incontablemente muchos valores?

Pregunta relacionada: ¿la distribución de una variable categórica es siempre una distribución discreta o una distribución continua?

0 votos

¿Qué quiere decir "infinito contable"? Usando la definición de aquí: mathworld.wolfram.com/ContablementeInfinito.html En realidad no puedo concebir un ejemplo aplicado. ¿Te refieres a una variable que puede oscilar hacia + o - infinito?

0 votos

No. Me refiero a la cardinalidad del conjunto de los valores que puede tomar la variable categórica para los datos categóricos.

0 votos

No estoy seguro de que eso añadiera claridad ;) Voy a dar un golpe de todos modos.

5voto

jldugger Puntos 7490

"Categórico" no es un término matemático bien definido, por lo que para responder a esta pregunta tenemos que fijarnos en cómo se pretende utilizar esta palabra. Se emplea en contraste con "ordinal", "intervalo" y "razón". Una forma de entender las principales distinciones es en términos de los grupos de reexpresiones admisibles de los valores. En el caso de las tres últimas, hay un orden que debe preservarse, por lo que todas las reexpresiones deben ser monótonas (preservar el orden). Para las variables categóricas, cualquier biyección (incluidas las permutaciones) está bien:

Más allá de eso, todo vale con la escala nominal [categórica].

(Stevens, citado en el Artículo de Wikipedia .)

Otro concepto de "categórico" es que cada resultado debe poder distinguirse de todos los demás. Esto sugiere fuertemente que cualquier medida de probabilidad debe ser totalmente discreta: es decir, todos los subconjuntos son medibles, lo que implica que cada categoría tendrá su propia probabilidad bien definida. (Éste no es el caso de las distribuciones continuas).

Esto parecería indicar que el número de categorías debería ser finito o, como mucho, contable, pero esto no es evidente en la bibliografía. Por ejemplo, un ejemplo arquetípico de variable categórica es un conjunto de nombres. El conjunto de todos los nombres posibles en cualquier alfabeto finito es contable pero no finito. Por tanto, es útil permitir que los conjuntos contablemente infinitos sean categóricos. Por ejemplo, si estudiamos los nombres que se ponen a los bebés, es conveniente dejar que el espacio muestral consista en todos los posibles nombres (en lugar de todos los nombres que conocemos).

Un ejemplo algo menos realista, pero concebible, de variable categórica sería una que utilizara números reales como nombres. En efecto, una variable de este tipo ignoraría toda la estructura matemática habitual de este conjunto. No veo ningún problema con este uso, pero vale la pena observar que los axiomas de probabilidad implican que cualquier distribución de probabilidad válida en este contexto (a) asignaría un valor no negativo a cada número real y (b) asignaría un valor distinto de cero como máximo a una infinidad contable de los reales.

Una aplicación que implica un espacio muestral incontable que admite variables aleatorias categóricas de soporte infinito, incluso incontable, es el estudio de gráficos aleatorios . Para entender la tasa de crecimiento de alguna propiedad de los grafos, nos gustaría contemplar grafos en 0, 1, ..., $n$ ... nodos, por lo que es conveniente permitir que los grafos tengan un número contable de nodos. Las variables aleatorias definidas en este conjunto pueden ser de varios tipos. Por ejemplo, el grado medio de los vértices (si es finito) podría considerarse de tipo razón; el grado total de los vértices podría considerarse de tipo ordinal (y, por tanto -olvidando el orden- es un buen ejemplo de variable discreta contable). Si además permitimos que un grafo tenga un número arbitrario de aristas y nos interesan, digamos, sus componentes conectados, entonces tendríamos una categoría natural que es incontable (porque cada componente conectado determina el subconjunto de nodos que contiene y hay incontables subconjuntos de un conjunto contable).

En resumen, es razonable permitir que los valores categóricos alcancen una infinidad incontable de posible valores, reconociendo al mismo tiempo que como máximo un número contable de ellos podría haber probabilidades positivas. Este debe ser una distribución discreta, porque todos los subconjuntos son medibles, lo que no ocurre con las distribuciones continuas.

1 votos

"es conveniente dejar que el espacio muestral consista en todos los nombres posibles (en lugar de todos los nombres que conocemos)" - ¿cómo es eso conveniente?

0 votos

No estoy seguro de por qué dice que "categórico" no está bien definido matemáticamente. Creo que es necesario aclarar el significado de categoría, nivel y datos. Estos términos deben definirse matemáticamente para que la estadística matemática sea relevante. :) No obstante, es una respuesta bastante interesante.

0 votos

@Iterator No estoy en desacuerdo contigo y agradezco tus comentarios. Para aclarar de dónde vengo, me parece que la escala "categórica, nominal, intervalo, razón" no es matemática, sino que es una descripción cualitativa. En efecto, se podría llegar a definiciones matemáticas que recogieran la mayor parte del concepto de "categórico", pero eso podría ser incluso contraproducente. No considero que esta jerarquía forme parte de la estadística matemática y, de hecho, la encuentro inútil salvo como guía sugerente en algunas aplicaciones.

3voto

Brettski Puntos 5485

Muy bien, aquí está mi intento de respuesta, desde mi (imperfecta) comprensión de su pregunta.

Para empezar, "datos categóricos" es un término algo difuso y problemático. Es similar a la definición de material obsceno de "lo reconozco cuando lo veo". Hay algunos casos muy claros de datos categóricos, en los que los valores de una variable caen dentro de un pequeño número de categorías claramente definidas.

Más allá de eso, hay dragones.

En algún momento se obtienen suficientes categorías como para que la variable "categórica" pueda tratarse como una variable continua. O, alternativamente, utilizando conocimientos de la materia o una descripción de una distribución, puede dividir una variable continua en trozos categóricos y tratarla como categórica.

Así que en realidad hay dos respuestas a tu pregunta:

Teoría Respuesta: No. Podrías tener infinitas categorías, pero por alguna razón decides no llamarla variable continua. Si se permiten categorías basadas en decimales de una variable totalmente ilimitada, no hay razón para que no sea incontablemente infinita.

No estoy seguro de la frecuencia con la que esto acaba ocurriendo. En mi experiencia, al menos, muy pocas veces.

Respuesta aplicada: La cardinalidad de la mayoría de las cosas que podrían llamarse razonablemente datos categóricos tiene una cardinalidad muy inferior a la cardinalidad de N . Como ya se ha señalado, hay excepciones, a menudo sujetas a criterios imprecisos.

1 votos

Gracias. ¿Así que la respuesta tonta es que la cardinalidad puede ser cualquiera, mientras que la respuesta aplicada es que en la mayoría de los casos es finita?

0 votos

@Tim Esa es mi opinión. Alguien puede muy bien no estar de acuerdo.

0 votos

Siguiendo con la tonta respuesta de @EpiGrad, ¿no demostró Cantor que los números decimales son contablemente infinitos, en lugar de incontablemente infinitos?

1voto

Keith Sirmons Puntos 2558

Los datos categóricos son discretos; de lo contrario, sería difícil asignar categorías a los datos.

Mi opinión es la siguiente: los números naturales son discretos y, por tanto, categóricos. También son datos ordinales y de intervalo, pero también categóricos. Como los números naturales son contablemente infinitos, vemos que hay variables categóricas que pueden tomar valores contablemente infinitos. Esto no significa, sin embargo, que esto se aplique a todas las variables categóricas.

0 votos

Creo que el uso es ambiguo. Las variables categóricas tienen niveles . Los datos son meras observaciones de una variable categórica, con alguna nivel . Se podría abusar de la noción de niveles para producir infinitos. Un nivel podría, por ejemplo, contar los infinitos encontrados en un conjunto de datos (p. ej. $X/Y$ donde ambos se extraen del conjunto de dos elementos ${0,1}$ . No estoy en desacuerdo con su respuesta, pero sugiero que se aclare para abordar la cuestión de los niveles (o categorías).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X