23 votos

Mejor término para datos inventados?

Estoy escribiendo un ejemplo y he inventado algunos datos. Quiero que quede claro para el lector que estos no son datos reales, pero tampoco quiero dar la impresión de malicia, ya que solo sirven como ejemplo.

No hay un componente (pseudo)aleatorio en estos datos en particular, por lo que me parece que 'simulado' no es apropiado. Si lo llamo ficticio o fabricado, ¿da la impresión de datos fraudulentos? ¿'Inventado' es una palabra adecuada en un contexto científico?

¿Cuál es la terminología en la literatura estadística para datos inventados no simulados?

9 votos

Solo para agregar un comentario que se extiende a lo largo de varias respuestas: "sintético" es una buena palabra para datos fabricados que intentan verse lo más realistas posible, mientras que "maqueta" sugiere datos que han sido elaborados para demostrar algo en particular. Por ejemplo, los datos de "maqueta" podrían contener valores atípicos absurdos, simplemente para demostrar la importancia de tratar adecuadamente con los valores atípicos.

0 votos

Personalmente prefiero el término "simulado" y lo he encontrado con mayor frecuencia en la literatura estadística (es decir, "realizamos simulaciones para comparar nuestro modelo vs X, Y, Z...."

46voto

Matthias Schippling Puntos 881

Probablemente yo llamaría a estos datos "sintéticos" o "artificiales", aunque también podría llamarlos "simulados" (la simulación es muy simple).

30 votos

Se escucha "datos de juguete," "ejemplo de juguete" y "datos ficticios." Además, estoy de acuerdo en que "simulado" podría encajar incluso en ausencia números aleatorios.

7 votos

"Datos ilustrativos" o "datos de ejemplo" también pueden funcionar

8 votos

+1 'datos sintéticos' y 'ejemplo simplificado' son términos que podría usar, si se presentara la ocasión, al igual que 'ejemplo construido'. A veces digo "ejemplo ilustrativo" o algo similar, especialmente cuando el ejemplo fue construido explícitamente para tener características particulares (por ejemplo, cuando se diseñó como un contraejemplo a alguna noción errónea).

15voto

Fredrik Mörk Puntos 85694

Si desea referirse a sus datos como ficticios, estaría en buena compañía, ya que ese es el término que Francis Anscombe usó para describir su ahora famoso cuarteto.

De Anscombe, F. J. (1973). "Gráficos en Análisis Estadístico", Am. Stat. 27 (1):

Algunos de estos puntos están ilustrados por cuatro conjuntos de datos ficticios, cada uno consistente en once pares (x, y), que se muestran en la tabla.

Pero creo que tu precaución está bien ubicada, ya que mi OED (v4) parece indicar que este uso de ficticio está obsoleto

ficticio, a.

(fɪkˈtɪʃəs)

[f. L. fictīci-us (f. fingĕre para modelar, fingir) + -ous: ver -itious.]

1.1 †a.1.a Artificial en lugar de natural (obs.). b.1.b Falso, 'imitación', engaño; no genuino.

0 votos

En términos de legibilidad la primera sugerencia y los comentarios son una alternativa mucho mejor. No es necesario utilizar palabras poco comunes o complicadas.

2 votos

@Tim: Quiero estar de acuerdo, pero no estoy completamente seguro de con qué estaría de acuerdo. ¿Estás diciendo que ficticio sería una mala elección, a pesar de haber sido usado en un contexto similar antes? Porque eso es lo que estoy diciendo.

7voto

En informática a menudo lo llamamos datos de maquetación, que se pueden presentar a través de una maqueta (aplicación).

Los datos de maquetación también se pueden presentar a través de una aplicación completamente funcional, por ejemplo para probar la funcionalidad de la aplicación de manera controlada.

5 votos

Buen punto, pero creo que los datos de maqueta y los datos simulados no son exactamente iguales. Al crear datos de maqueta para pruebas unitarias, solo necesitas conservar algunas propiedades muy básicas de los datos reales, mientras que al usar datos simulados para análisis estadístico, normalmente se utilizan ejemplos de datos más sofisticados.

2 votos

Todavía creo que ErikE tiene razón, cuando escribes código analítico necesitas tanto los datos reales como datos simulados. Los datos simulados pueden ser tan grandes como desees en mi opinión.

1 votos

Probablemente las prácticas varían al igual que el uso de la terminología, supongo. Para muchas de nuestras pruebas y análisis, utilizamos datos en tiempo real que han sido "desactivados" por razones de seguridad y anonimato. Para otros, creamos datos básicos tal como describe Tim. No tengo una opinión fuerte, pero usamos el término maquetación bastante libremente.

3voto

rtol Puntos 11

He visto sugerencias repetidas para el término "datos sintéticos". Sin embargo, ese término tiene un significado ampliamente utilizado y muy diferente de lo que quieres expresar: https://es.wikipedia.org/wiki/Sintéticos_datos

No estoy seguro de que haya un término científico generalmente aceptado, pero ¿no parece difícil malinterpretar el término "datos de ejemplo"?

1 votos

Ese artículo parece un poco confuso--la relación con la anonimización es bastante tenue.

0 votos

+1 pero estoy de acuerdo con el comentario anterior: aparte de los párrafos posteriores (sobre que los datos sintetizados son un tipo de datos anonimizados), el resto de ese artículo de Wikipedia parece estar describiendo lo que el que hace la pregunta quiere. Es decir, datos inventados que parecen realistas.

3voto

mkt Puntos 688

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X