9 votos

¿Es un conjunto de datos realmente un conjunto?

Al principio pensaba que, en estadística, un conjunto de datos no era más que un conjunto de números reales, y ya está. Pero en el caso de un conjunto, sólo puede haber una instancia de cualquier entrada dada, por ejemplo, en la teoría de conjuntos

$$\left \{ 1,2,2 \right \}=\left \{ 1,2 \right \}$$

Un conjunto de esta forma en la teoría de conjuntos también puede llamarse un par desordenado .

Pero desde el punto de vista de la estadística los objetos de ambos lados de la ecuación son distintos, por ejemplo, el de la izquierda tiene una moda, mientras que el de la derecha no; la media aritmética del de la izquierda es $\frac{5}{3}$ mientras que la media aritmética de la derecha es $\frac{3}{2}$ .

Pregunta: ¿son realmente diferentes los conceptos de conjunto de datos en estadística y conjunto en teoría de conjuntos? ¿Son los conjuntos de datos de números reales en estadística realmente $n$ -¿tuplas de la teoría de conjuntos disfrazadas, o tomadas como tales la mayoría de las veces de forma implícita?

1 votos

Para obtener el orden de conjuntos desordenados siempre puedes anidar las cosas así $\{1,\{2\},\{\{2\}\}\}$ o utilizando algún otro esquema. Si decides que realmente no quieres un orden explícito, toma un ''conjunto de datos'' como una clase de equivalencia de la relación sobre conjuntos ordenados en el sentido anterior que hace equivalentes las permutaciones.

7 votos

También existe el concepto denominado multiset que empareja cada valor con el número de veces que ha sido observado, por lo que en realidad tendríamos el conjunto desordenado $\{(1, 1), (2,2)\}$ de pares ordenados, diciendo que $1$ se observó una vez, y $2$ fue obsevado dos veces. Esto no introduce ninguna ordenación que luego ignores, y hace que el proceso de obtención de un valor sea coherente.

3 votos

¿Por qué ha sido votado negativamente? Estaría bien que los downvoters explicaran su decisión.

11voto

goblin Puntos 21696

Arthur tiene razón; el término "conjunto de datos" suele significar multiconjunto. Por ejemplo, un conjunto de datos bivariados sólo significa un multiconjunto de elementos de $\mathbb{R}^2$ . Además, si $X$ es un conjunto, me gusta escribir $\mathbb{N}\langle X \rangle$ para el conjunto de todos los multiconjuntos en $X$ . Por lo tanto, $\mathbb{N}\langle \mathbb{R}^2\rangle$ es la notación para la colección de todos los conjuntos de datos bivariantes. El resto de mi respuesta abordará la pregunta:

¿Qué es un multiconjunto?

Informalmente, un multiconjunto en $X$ es como un subconjunto finito de $X$ excepto que se permiten las repeticiones. (El orden sigue sin importar.) Por ejemplo, los siguientes son conjuntos múltiples en $\mathbb{N}$ : $$\{1,2\} \quad \{2,1\} \quad \{2,1,1\}$$ Los dos primeros son iguales, pero el último es distinto de los otros dos. A veces es más claro escribir los conjuntos múltiples utilizando la notación de combinaciones lineales: $$\{a,b,b\} = \{a\}+\{b\}+\{b\} = \{a\}+2\{b\}$$

He aquí algunas formalizaciones diferentes, empezando por las más concretas y terminando por las más abstractas:

Sea $X$ denotan un conjunto. Entonces:

Definición 0. A multiset en $X$ es una función finitamente soportada $X \rightarrow \mathbb{N}$ .

(El apoyo de $f : X \rightarrow \mathbb{N}$ se define como $\{x \in X \mid f(x) \neq 0\}$ y $f$ se dice finitamente soportado si este conjunto es finito).

Más abstractamente:

Definición 1. A multiset en $X$ es un elemento del $\mathbb{N}$ -módulo generado libremente por $X$ .

(Esto explica por qué funciona la notación de combinaciones lineales. También explica por qué $\mathbb{N}\langle X\rangle$ es una buena notación).

Para ver cómo y por qué funciona la definición 0, basta con interpretar $\{a\}$ en función de $X \rightarrow \mathbb{N}$ para cada $a \in X$ como sigue: $$\{a\}(b) = [a=b]$$

(Véase también, Soporte Iverson . Suelo evitar Notación delta de Kronecker porque es una formalización menos versátil y se puede hacer mucho menos con ella; por lo tanto, creo que la comunidad matemática debería eliminar progresivamente su uso).

Observemos ahora que el conjunto de funciones finitamente soportadas $X \rightarrow \mathbb{N}$ formar un $\mathbb{N}$ -bajo las operaciones puntuales. Esto nos permite sumar elementos de la forma $\{a\}$ como nos plazca, construyendo esencialmente conjuntos múltiples complicados a partir de "átomos" más simples. Podemos decir más: el conjunto $$\{\{a\} : a \in X\}$$ es una base para el conjunto de todas las funciones finitamente soportadas $X \rightarrow \mathbb{N}$ lo que explica la equivalencia con la definición 1. De hecho, es la única base.

Para el lector más avanzado:

En primer lugar, algunos comentarios de carácter general. Si sólo has considerado módulos sobre anillos, la unicidad de una base puede chocarte un poco. Todo esto es posible porque $\mathbb{N}$ no es un anillo, por supuesto. Otro caso es $\mathbb{B}$ -donde $\mathbb{B} = \{0,1\}$ tiene la multiplicación dada por Logical AND, la suma dada por Logical OR. Así que en particular, $1+1 = 1$ en contraste con el anillo $\mathbb{Z}/2\mathbb{Z}$ que tiene $1+1 = 0$ . De todos modos, un $\mathbb{B}$ -resulta ser lo mismo que un semilattice unital, y el $\mathbb{B}$ -módulo libremente por $X$ es sólo $\mathcal{P}_{\mathrm{fin}}(X)$ la colección de todos los subconjuntos finitos de $X$ . Los singletons proporcionan la base única.

Yendo más allá de los semirings, otro lugar donde se da la unicidad de base es en el contexto de álgebras baricéntricas . En este caso, las álgebras libres son símplices, lo que explica que podamos hablar de los vértices de un símplex.

En otro orden de cosas, también podemos intentar categorizar:

Definición 2. A multiconjunto categorizado en $X$ es una función finitamente soportada $X \rightarrow \mathbf{FinSet}$ .

(En otras palabras, un multiconjunto categorizado es un $X$ -familia indexada de conjuntos finitos tal que todos menos finitamente muchos de esos conjuntos están vacíos).

Más abstractamente:

Definición 3. A multiconjunto categorizado en $X$ es un objeto de la categoría de coproductos finitos generada libremente por $X$ .

También añadiría que hay una definición que parece no encajar en el esquema anterior:

Definición. 4 A multiconjunto categorizado en $X$ es un objeto $M$ de la categoría de rodajas $\mathbf{Set}/X$ tal que el conjunto subyacente de $M$ es finito.

0 votos

Por favor, explica qué es un multiset en el cuerpo de la respuesta para que la gente no tenga que buscar en los comentarios.

2 votos

@MichaelSmith, acaba de hacer la mierda de esa solicitud :)

1 votos

La edición me parece muy divertida e ingeniosa, de verdad. Pero me preocupa mucho que algunos no capten la idea principal. Por favor, reedita la pregunta enmarcándola en términos de una definición que implique productos cartesianos (como ya ha hecho @Arthur). Muchas gracias, amigo :)

5voto

Martin Kochanski Puntos 325

Un "conjunto de datos" en estadística sí permite repeticiones y, en ese sentido, es diferente de un "conjunto" en la teoría de conjuntos.

De lo contrario, no tendría mucho sentido: por ejemplo, si se toma la temperatura media diaria de cada día durante un año, sólo va a haber un par de docenas de valores (o unas docenas, en Fahrenheit), y el concepto de media o promedio, desviación típica, etc., no tendría ningún sentido.

Según el contexto, un "conjunto de datos" es o bien una serie ordenada de valores (por tanto, un $n$ -tupla disfrazada, como tú dices) o una colección de valores, algunos de los cuales pueden repetirse, con sin pedido implícito - para que $\{1,2,2\} = \{2,1,2\} = \{2,2,1\}$ . Supongo que si estuvieras desesperado podrías considerar este último como un mapa desde el espacio de los valores posibles al conjunto de los números naturales.

5voto

Shabaz Puntos 403

En la mayoría de los casos, el conjunto de datos será un conjunto verdadero si se considera como un conjunto de observaciones. En el ejemplo de las temperaturas, sólo hay unas pocas temperaturas diferentes, pero cada una corresponde a un día distinto. Su conjunto de datos consiste en pares ordenados (día, temperatura en ese día) y ningún par se repite. La única forma de obtener repetición es observar los mismos datos más de una vez. Si tienes un conjunto de datos sobre el número de patas de los caballos, tus observaciones son (nombre del caballo, número de patas). Si tiene una repetición, ha observado el mismo caballo más de una vez, por lo que podría querer eliminar una observación. Alternativamente, puede preocuparle que un caballo haya perdido una pata, en cuyo caso sus datos son (nombre del caballo, fecha de observación, número de patas) y de nuevo no tendrá duplicados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X