Arthur tiene razón; el término "conjunto de datos" suele significar multiconjunto. Por ejemplo, un conjunto de datos bivariados sólo significa un multiconjunto de elementos de $\mathbb{R}^2$ . Además, si $X$ es un conjunto, me gusta escribir $\mathbb{N}\langle X \rangle$ para el conjunto de todos los multiconjuntos en $X$ . Por lo tanto, $\mathbb{N}\langle \mathbb{R}^2\rangle$ es la notación para la colección de todos los conjuntos de datos bivariantes. El resto de mi respuesta abordará la pregunta:
¿Qué es un multiconjunto?
Informalmente, un multiconjunto en $X$ es como un subconjunto finito de $X$ excepto que se permiten las repeticiones. (El orden sigue sin importar.) Por ejemplo, los siguientes son conjuntos múltiples en $\mathbb{N}$ : $$\{1,2\} \quad \{2,1\} \quad \{2,1,1\}$$ Los dos primeros son iguales, pero el último es distinto de los otros dos. A veces es más claro escribir los conjuntos múltiples utilizando la notación de combinaciones lineales: $$\{a,b,b\} = \{a\}+\{b\}+\{b\} = \{a\}+2\{b\}$$
He aquí algunas formalizaciones diferentes, empezando por las más concretas y terminando por las más abstractas:
Sea $X$ denotan un conjunto. Entonces:
Definición 0. A multiset en $X$ es una función finitamente soportada $X \rightarrow \mathbb{N}$ .
(El apoyo de $f : X \rightarrow \mathbb{N}$ se define como $\{x \in X \mid f(x) \neq 0\}$ y $f$ se dice finitamente soportado si este conjunto es finito).
Más abstractamente:
Definición 1. A multiset en $X$ es un elemento del $\mathbb{N}$ -módulo generado libremente por $X$ .
(Esto explica por qué funciona la notación de combinaciones lineales. También explica por qué $\mathbb{N}\langle X\rangle$ es una buena notación).
Para ver cómo y por qué funciona la definición 0, basta con interpretar $\{a\}$ en función de $X \rightarrow \mathbb{N}$ para cada $a \in X$ como sigue: $$\{a\}(b) = [a=b]$$
(Véase también, Soporte Iverson . Suelo evitar Notación delta de Kronecker porque es una formalización menos versátil y se puede hacer mucho menos con ella; por lo tanto, creo que la comunidad matemática debería eliminar progresivamente su uso).
Observemos ahora que el conjunto de funciones finitamente soportadas $X \rightarrow \mathbb{N}$ formar un $\mathbb{N}$ -bajo las operaciones puntuales. Esto nos permite sumar elementos de la forma $\{a\}$ como nos plazca, construyendo esencialmente conjuntos múltiples complicados a partir de "átomos" más simples. Podemos decir más: el conjunto $$\{\{a\} : a \in X\}$$ es una base para el conjunto de todas las funciones finitamente soportadas $X \rightarrow \mathbb{N}$ lo que explica la equivalencia con la definición 1. De hecho, es la única base.
Para el lector más avanzado:
En primer lugar, algunos comentarios de carácter general. Si sólo has considerado módulos sobre anillos, la unicidad de una base puede chocarte un poco. Todo esto es posible porque $\mathbb{N}$ no es un anillo, por supuesto. Otro caso es $\mathbb{B}$ -donde $\mathbb{B} = \{0,1\}$ tiene la multiplicación dada por Logical AND, la suma dada por Logical OR. Así que en particular, $1+1 = 1$ en contraste con el anillo $\mathbb{Z}/2\mathbb{Z}$ que tiene $1+1 = 0$ . De todos modos, un $\mathbb{B}$ -resulta ser lo mismo que un semilattice unital, y el $\mathbb{B}$ -módulo libremente por $X$ es sólo $\mathcal{P}_{\mathrm{fin}}(X)$ la colección de todos los subconjuntos finitos de $X$ . Los singletons proporcionan la base única.
Yendo más allá de los semirings, otro lugar donde se da la unicidad de base es en el contexto de álgebras baricéntricas . En este caso, las álgebras libres son símplices, lo que explica que podamos hablar de los vértices de un símplex.
En otro orden de cosas, también podemos intentar categorizar:
Definición 2. A multiconjunto categorizado en $X$ es una función finitamente soportada $X \rightarrow \mathbf{FinSet}$ .
(En otras palabras, un multiconjunto categorizado es un $X$ -familia indexada de conjuntos finitos tal que todos menos finitamente muchos de esos conjuntos están vacíos).
Más abstractamente:
Definición 3. A multiconjunto categorizado en $X$ es un objeto de la categoría de coproductos finitos generada libremente por $X$ .
También añadiría que hay una definición que parece no encajar en el esquema anterior:
Definición. 4 A multiconjunto categorizado en $X$ es un objeto $M$ de la categoría de rodajas $\mathbf{Set}/X$ tal que el conjunto subyacente de $M$ es finito.
1 votos
Para obtener el orden de conjuntos desordenados siempre puedes anidar las cosas así $\{1,\{2\},\{\{2\}\}\}$ o utilizando algún otro esquema. Si decides que realmente no quieres un orden explícito, toma un ''conjunto de datos'' como una clase de equivalencia de la relación sobre conjuntos ordenados en el sentido anterior que hace equivalentes las permutaciones.
7 votos
También existe el concepto denominado multiset que empareja cada valor con el número de veces que ha sido observado, por lo que en realidad tendríamos el conjunto desordenado $\{(1, 1), (2,2)\}$ de pares ordenados, diciendo que $1$ se observó una vez, y $2$ fue obsevado dos veces. Esto no introduce ninguna ordenación que luego ignores, y hace que el proceso de obtención de un valor sea coherente.
3 votos
¿Por qué ha sido votado negativamente? Estaría bien que los downvoters explicaran su decisión.
0 votos
@BjörnFriedrich Me gusta que unos 5 hayan votado a favor de la pregunta y que otros 5 la hayan votado en contra :) A tantas cabezas, tantas opiniones. La gente en MSE siempre encontrará una razón para downvote o cerrar cualquier pregunta dada, no importa lo que la pregunta es.
1 votos
Relacionados: math.stackexchange.com/questions/18024/set-vs-multiset véase también el debate en wikipedia es.wikipedia.org/wiki/Talk%3AData_set
1 votos
@BjörnFriedrich Probablemente fue downvoted porque se trata de la semántica de la palabra. Yo votaría negativo a "¿es un quark extraño realmente extraño?" en el SE de Física. Para el caso, ¿es un televisor realmente un conjunto? Los componentes tienen que estar dispuestos en un gráfico para recibir, descodificar y renderizar el vídeo y el audio. Debería llamarse gráfico de televisión.
0 votos
@Kaz pero afortunadamente la estadística (y especialmente la estadística matemática) y las matemáticas (y la teoría de conjuntos en particular) son ciencias formales, así que la pregunta no es tan trivial como para recibir downvotes. Hay preguntas que yo (entre muchos otros usuarios de este sitio, supongo) consideraría totalmente triviales, y sin embargo reciben toneladas de upvotes. Y a veces una pregunta cuyo núcleo es la semántica es diez veces más interesante y no trivial que otra que no lo es.