23 votos

¿El mejor término para los datos inventados?

Estoy escribiendo un ejemplo y me he inventado algunos datos. Quiero que quede claro para el lector que no son datos reales, pero tampoco quiero dar la impresión de malicia, ya que sólo sirve como ejemplo.

No hay ningún componente (pseudo)aleatorio en estos datos en particular, por lo que me parece que "simulado" no es apropiado. Si lo llamo ficticio o fabricado, ¿da eso la impresión de fraudulento ¿Datos? ¿Es "inventado" una palabra que encajaría en un contexto científico?

¿Cuál es la terminología en la literatura estadística para los datos inventados no simulados?

9 votos

Sólo para añadir un comentario que se extiende a lo largo de varias respuestas: "sintético" es una buena palabra para datos inventados que intentan parecer lo más realistas posible, mientras que "maqueta" sugiere datos que han sido elaborados para demostrar algo en particular. Por ejemplo, los datos "maquetados" podrían contener valores atípicos absurdos, sólo para demostrar lo importante que es tratar adecuadamente los valores atípicos.

0 votos

Personalmente prefiero el término "simulado" y es el que más he encontrado en la literatura estadística (es decir, "realizamos simulaciones para comparar nuestro modelo frente a X,Y,Z...."

46voto

Matthias Schippling Puntos 881

Yo probablemente llamaría a esto datos "sintéticos" o "artificiales", aunque también podría llamarlos "simulados" (la simulación es muy simple).

30 votos

Se oye "datos de juguete", "ejemplo de juguete" y "datos ficticios". También estoy de acuerdo en que "simulado" podría encajar bien incluso en ausencia de números aleatorios.

7 votos

También puede utilizarse "datos ilustrativos" o "datos de ejemplo".

8 votos

+1 ' datos sintéticos y ejemplo de juguete ' son términos que podría utilizar, si se diera la ocasión, al igual que 'ejemplo construido'. A veces digo "ejemplo ilustrativo" o algo parecido, sobre todo cuando el ejemplo se construyó explícitamente para que tuviera unas características concretas (por ejemplo, cuando se diseñó como contraejemplo de alguna noción errónea).

15voto

Fredrik Mörk Puntos 85694

Si desea referirse a sus datos como ficticio estarías en buena compañía, ya que ese es el término que Francis Anscombe utilizó para describir su ahora famoso cuarteto .

De Anscombe, F. J. (1973). " Gráficos en el análisis estadístico ", Am. Stat. 27 (1):

Algunos de estos puntos se ilustran con cuatro conjuntos de datos ficticios, cada uno formado por once pares (x, y), que se muestran en la tabla.

Pero creo que su precaución es acertada, ya que mi OED (v4) parece indicar que este uso de ficticio es obsoleto

ficticio , a.

(fkts)

[f. L. fictci-us (f. fingre, fingir) + -ous: véase -itious].

1.1 †a.1.a Artificial por oposición a natural (obs.). b.1.b Falsificación, 'imitación', farsa; no genuino.

0 votos

En términos de legibilidad, la primera sugerencia y los comentarios son una alternativa mucho mejor. No es necesario utilizar palabras poco comunes y complicadas.

2 votos

@Tim: Quiero estar de acuerdo, pero no estoy del todo seguro de con qué estaría de acuerdo. ¿Estás diciendo que ficticio sería una mala elección, a pesar de haberse utilizado antes en un contexto similar? Porque eso es lo que estoy diciendo.

7voto

En informática solemos llamarlo datos de la maqueta que puede presentarse a través de una maqueta (aplicación).

Los datos de la maqueta también pueden presentarse a través de una aplicación totalmente funcional, por ejemplo para probar la funcionalidad de la aplicación de forma controlada.

5 votos

Buena observación, pero creo que los datos simulados no son exactamente los mismos. Cuando se crean datos simulados para pruebas unitarias, solo se necesitan para preservar algunas propiedades muy básicas de los datos reales, mientras que cuando se utilizan datos simulados para análisis estadísticos, normalmente se utilizan ejemplos de datos más sofisticados.

2 votos

Sin embargo, sigo creyendo que ErikE tiene razón, cuando escribes código analítico necesitas datos reales o simulados. Los datos simulados pueden ser tan grandes como quieras que sean.

1 votos

Las prácticas probablemente varían, al igual que el uso de la terminología, supongo. Para muchas de nuestras pruebas y análisis utilizamos datos reales que han sido "desactivados" por razones de seguridad y anonimato. Para otros, creamos datos básicos tal y como describe Tim. No tengo una opinión firme, pero utilizamos el término maqueta con bastante ligereza.

3voto

rtol Puntos 11

He visto repetidas sugerencias sobre el término "datos sintéticos". Sin embargo, ese término tiene un significado muy amplio y muy distinto del que usted quiere expresar: https://en.wikipedia.org/wiki/Synthetic_data

No estoy seguro de que exista un término científico generalmente aceptado, pero el término "datos de ejemplo" parece difícil de malinterpretar

1 votos

Ese artículo parece un poco confuso: la relación con la anonimización es bastante tenue.

0 votos

+1 pero estoy de acuerdo con el comentario anterior: aparte de los segundos párrafos (que dicen que los datos sintetizados son un tipo de datos anónimos), el resto del artículo de Wikipedia parece describir lo que el autor de la pregunta quiere. Es decir, datos sintetizados de aspecto realista.

3voto

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X