(No tengo idea de lo que la etiqueta esta con el porque yo no soy estadístico y no sé qué campo cae en. Siéntase libre de agregar más adecuado etiquetas.)
Yo trabajo para una empresa que produce software de análisis de datos, y necesitamos un conjunto digno de datos de prueba y demostración de nuestro producto más reciente. No podemos llenar la base de datos con la salida de un generador de números aleatorios debido a que el programa de las salidas sería absurdo. Una de las formas más sencillas de obtener datos de un cliente; contamos con una gran cantidad de datos de una prueba se corrió. Ahora, está claro que no podemos publicar un cliente de los datos reales, por lo que tenemos que modificar un poco, pero todavía necesitamos para que se comporte como datos reales.
El objetivo es llevar a su conjunto de datos, y solicitar una "fuzz", por lo que no puede ser reconocido como específicamente de ellos. Mi memoria de la teoría estadística en sí es un poco difusa, así que me gustaría realizar, esto por ustedes:
Esencialmente, los datos que tenemos (desde el cliente) es en sí mismo una muestra de todos los datos que existe (en el país o el mundo). Lo que me gustaría saber es qué tipo de operaciones se pueden aplicar para hacer la muestra ya no fuertemente representante del cliente de la población de la muestra, manteniendo todavía aproximadamente representante de la población mundial.
Para referencia, en la medida de como somos conscientes de que los datos que tenemos en general de la siguiente manera áspera normal (Gaussiana) de las distribuciones.
El conjunto de datos original no está ampliamente disponible, pero, en teoría, podría ser reconocidos a partir de algunos regional-características específicas (no sabemos cuales son esas características, y es dudoso que alguien hace a un nivel suficiente, pero sabemos que existen variaciones de un lugar a otro). De todos modos, estoy más interesado en la teoría de que la práctica - quiero saber si una operación hace que sea imposible (o al menos difícil) para identificar el origen del conjunto de datos por parámetro X, o si no alguien tiene o puede trabajar parámetro X en el primer lugar.
El enfoque que hemos hecho es separar las lecturas en los distintos tipos, (sin dar mucha distancia, digamos que un grupo podría ser "longitud" o "tiempo necesario para hacer X".) Para cada una de ellas, calcular la desviación estándar. Entonces, para cada valor, agregar un valor al azar entre los valores positivos y negativos de (n * stddev) donde n es una fracción que puedo usar para afinar el resultado hasta que los datos son lo suficientemente "fuzzed". No quería simplemente aplicar un intervalo estático (es decir, al azar de entre el 90% y el 110% del valor original) debido a que algunos de los valores varían mucho más o menos que otros - en algunas mediciones, siendo un 10% más que la media es apenas perceptible, pero en otras se le hace una seria de valores atípicos.
Es esto suficiente para enmascarar el origen de los datos originales? Si no, por que estadística medidas de los datos todavía pueda ser identificado, y cómo puedo máscara de aquellos y a la vez mantener los datos resultantes vagamente realista?