28 votos

¿Cuáles son algunas de las prácticas estándar para la creación de conjuntos de datos sintéticos?

Como contexto: Cuando se trabaja con un conjunto de datos muy grande, a veces me preguntan si podemos crear una síntesis de conjunto de datos donde podemos "saber" la relación entre los predictores y la variable de respuesta, o de las relaciones entre los predictores.

A través de los años, me parece que el encuentro sea uno de los conjuntos de datos sintéticos, que parece que fueron cocinadas de una manera ad hoc, o más conjuntos de datos estructurados que parecen especialmente favorable para el investigador de la propuesta de método de modelado.

Creo que estoy más en busca de métodos estándar para la creación de los conjuntos de datos sintéticos. A pesar de remuestreo bootstrap es un método común para la creación sintética de conjunto de datos, no satisfacen la condición de que sabemos que la estructura a priori. Por otra parte, el intercambio de muestras bootstrap con los demás requiere esencialmente el intercambio de datos, en lugar de un método de generación.

Si podemos ajustar una distribución paramétrica de los datos, o encontrar una lo suficientemente cerca de la parametrización del modelo, entonces este es un ejemplo de que podemos generar los conjuntos de datos sintéticos.

¿Qué otros métodos existen? Estoy especialmente interesado en alta dimensional de datos, los datos dispersos, y los datos de series de tiempo. Para el alta de datos dimensional, me gustaría buscar métodos que pueden generar estructuras (por ejemplo, estructura de covarianza, modelos lineales, árboles, etc.) de interés. Para datos de series de tiempo, a partir de las distribuciones más de Fft, AR modelos, o varios otros filtros o los modelos de previsión parece un inicio. Para los datos dispersos, la reproducción de un patrón de dispersión parece útil.

Yo creo que estos sólo arañan la superficie de estos son heurística, no formal prácticas. Hay referencias o recursos para la generación de datos sintéticos que debe ser conocido para los profesionales?


Nota 1: me doy cuenta de que esta cuestión se aborda la literatura sobre la manera en que puede generar datos como un particular modelo de serie temporal. La diferencia aquí está en prácticas, especialmente en el fin de indicar una estructura conocida (mi pregunta), frente a la similitud / la fidelidad a un conjunto de datos existente. No es necesario en mi caso tener similitud, tanto como estructura conocida, a pesar de la similitud es en gran medida preferida para la desemejanza. Una exótica sintético conjunto de datos para que un modelo de muestra promesa es menos preferido de una simulación realista.

Nota 2: La entrada de Wikipedia para datos sintéticos señala que luminarias como Rubin y Fienberg han abordado este tema, aunque he encontrado ninguna referencia sobre las mejores prácticas. Sería interesante saber qué iba a pasar con, digamos, los Anales de la Estadística Aplicada (o la AOS), o en la revisión de obras en estas u otras revistas. En simple y caprichosa términos, uno se puede preguntar ¿de dónde viene el umbral entre "(aceptablemente) cocinado" y "demasiado cocinado" existen?

Nota 3: a Pesar de que no afecta a la cuestión, el escenario de uso es en el modelado de grandes varían, de grandes dimensiones conjuntos de datos, donde la agenda de investigación es aprender (tanto por el humano y la máquina ;-)) la estructura de los datos. A diferencia de univariante, bivariante y otros de baja dimensionalidad de los escenarios, la estructura no es fácilmente inferirse. Como nos paso hacia una mejor comprensión de la estructura, siendo capaz de generar conjuntos de datos con propiedades similares es de interés con el fin de ver cómo un método de modelado interactúa con los datos (por ejemplo, para examinar el parámetro de estabilidad). No obstante, los antiguos guías de baja dimensionalidad sintético de datos puede ser un punto de partida que puede ampliarse o adaptarse a las dimensiones superiores de conjuntos de datos.

7voto

Brettski Puntos 5485

No estoy seguro de que no son las prácticas estándar para la generación sintética de datos se utiliza tan fuertemente en tantos aspectos diferentes de la investigación de ese propósito-construido de datos parece ser más común y sin duda más razonable.

Para mí, mi mejor práctica estándar es de no hacer que el conjunto de datos para que funcionen bien con el modelo. Eso es parte de la etapa de investigación, no forma parte de la generación de datos de la etapa. En lugar de ello, los datos deben ser diseñados para reflejar el proceso generador de datos. Por ejemplo, para los estudios de simulación en Epidemiología, yo siempre inicio de una gran población hipotética con una distribución conocida, y luego simular estudio de muestreo de la población, en vez de generar "la población de estudio" directamente.

Por ejemplo, basado en nuestra discusión a continuación, dos ejemplos de los datos simulados he hecho:

  • Algo similar a su SEÑOR-modelo de ejemplo de abajo, yo una vez utilizado un modelo matemático de la propagación de la enfermedad a través de una red para mostrar a mí mismo a través de la simulación de que un determinado parámetro constante no implica necesariamente un constante peligro si se trata de los resultados como el resultado de un estudio de cohorte. Fue útil la prueba de concepto, mientras que yo fui la excavación de una solución analítica.
  • Quería explorar el impacto de un determinado plan de muestreo para un estudio caso-control. En lugar de tratar de generar el estudio de plano, caminé a través de cada paso del proceso. Una población de 1.000.000 de personas, con un dado se conoce la prevalencia de la enfermedad y un conocido covariable patrón. Luego de que la simulación de los procesos de muestreo, en este caso, cómo los casos y los controles fueron extraídos de la población. Sólo entonces me tiro de un verdadero modelo estadístico en la recogida "simulada de los estudios".

Simulaciones como estos últimos son muy comunes cuando se examina el impacto de reclutamiento para el estudio de los métodos, los métodos estadísticos para el control de las covariables, etc.

2voto

Eero Puntos 1612

El paquete estadístico R tiene una función de simular que se simula datos basados en un modelo que se ajuste a los datos existentes. Este utiliza el modelo ajustado como la relación de "conocidos" de la población, luego simula nuevos datos basados en ese modelo. Hay un método para esta función en el paquete lme4. Pueden tener estos objetos equipados en efectos aleatorios y fijos cuenta y correlación (incluyendo autocorrelación de series de tiempo).

Esto puede funcionar hacer lo que quiera.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X