Como contexto: Cuando se trabaja con un conjunto de datos muy grande, a veces me preguntan si podemos crear una síntesis de conjunto de datos donde podemos "saber" la relación entre los predictores y la variable de respuesta, o de las relaciones entre los predictores.
A través de los años, me parece que el encuentro sea uno de los conjuntos de datos sintéticos, que parece que fueron cocinadas de una manera ad hoc, o más conjuntos de datos estructurados que parecen especialmente favorable para el investigador de la propuesta de método de modelado.
Creo que estoy más en busca de métodos estándar para la creación de los conjuntos de datos sintéticos. A pesar de remuestreo bootstrap es un método común para la creación sintética de conjunto de datos, no satisfacen la condición de que sabemos que la estructura a priori. Por otra parte, el intercambio de muestras bootstrap con los demás requiere esencialmente el intercambio de datos, en lugar de un método de generación.
Si podemos ajustar una distribución paramétrica de los datos, o encontrar una lo suficientemente cerca de la parametrización del modelo, entonces este es un ejemplo de que podemos generar los conjuntos de datos sintéticos.
¿Qué otros métodos existen? Estoy especialmente interesado en alta dimensional de datos, los datos dispersos, y los datos de series de tiempo. Para el alta de datos dimensional, me gustaría buscar métodos que pueden generar estructuras (por ejemplo, estructura de covarianza, modelos lineales, árboles, etc.) de interés. Para datos de series de tiempo, a partir de las distribuciones más de Fft, AR modelos, o varios otros filtros o los modelos de previsión parece un inicio. Para los datos dispersos, la reproducción de un patrón de dispersión parece útil.
Yo creo que estos sólo arañan la superficie de estos son heurística, no formal prácticas. Hay referencias o recursos para la generación de datos sintéticos que debe ser conocido para los profesionales?
Nota 1: me doy cuenta de que esta cuestión se aborda la literatura sobre la manera en que puede generar datos como un particular modelo de serie temporal. La diferencia aquí está en prácticas, especialmente en el fin de indicar una estructura conocida (mi pregunta), frente a la similitud / la fidelidad a un conjunto de datos existente. No es necesario en mi caso tener similitud, tanto como estructura conocida, a pesar de la similitud es en gran medida preferida para la desemejanza. Una exótica sintético conjunto de datos para que un modelo de muestra promesa es menos preferido de una simulación realista.
Nota 2: La entrada de Wikipedia para datos sintéticos señala que luminarias como Rubin y Fienberg han abordado este tema, aunque he encontrado ninguna referencia sobre las mejores prácticas. Sería interesante saber qué iba a pasar con, digamos, los Anales de la Estadística Aplicada (o la AOS), o en la revisión de obras en estas u otras revistas. En simple y caprichosa términos, uno se puede preguntar ¿de dónde viene el umbral entre "(aceptablemente) cocinado" y "demasiado cocinado" existen?
Nota 3: a Pesar de que no afecta a la cuestión, el escenario de uso es en el modelado de grandes varían, de grandes dimensiones conjuntos de datos, donde la agenda de investigación es aprender (tanto por el humano y la máquina ;-)) la estructura de los datos. A diferencia de univariante, bivariante y otros de baja dimensionalidad de los escenarios, la estructura no es fácilmente inferirse. Como nos paso hacia una mejor comprensión de la estructura, siendo capaz de generar conjuntos de datos con propiedades similares es de interés con el fin de ver cómo un método de modelado interactúa con los datos (por ejemplo, para examinar el parámetro de estabilidad). No obstante, los antiguos guías de baja dimensionalidad sintético de datos puede ser un punto de partida que puede ampliarse o adaptarse a las dimensiones superiores de conjuntos de datos.