He leído estas preguntas y esto no es duplicado de ellos
- mejor manera estadísticamente detectar anomalías en los datos
- Los cálculos estadísticos
- Algoritmo(s) para detectar anomalías ("picos") en el tráfico de datos
He recogido datos estadísticos sobre las personas
Jerarquía de datos es como este:
- Región
- Calle
- El número de edificio
- Número de entrada
- [Paquete estadístico]
- Calle
[Paquete estadístico] contiene (en este ejemplo)
- piso (stock) número de
- UUID (definición de la plana)
- La religión
- Aparición de toilete
Qué algoritmo o procedimiento debo usar para descubrir anomalías como:
o Lo estadístico marco de programación debo usar?
(incluyendo lo que es mejor subrayando la tecnología - como SQL o Documento orientado a la DB, interpretado o compilado idioma, y así sucesivamente)
1-a :: de una sola planta (de todos los pisos en el edificio) no tiene aseos
1-b :: Uno plano (UUID) no tiene inodoro, aunque todos los otros pisos en la entrada/edificio cuenta con, al menos, en
2-a :: Hay un plano alegando que la Religión X a pesar de toda la Región se ha Religiones y y Z
2-b :: No es un edificio alegando que la Religión X a pesar de toda la Región se ha Religiones y y Z
Pero este es el único ejemplo en el limitado número de paquete Estadístico de atributos, que debo encontrar muchos tipos de anomalías en alrededor de 15 atributos en cada paquete Estadístico
Nota: esta pregunta no es acerca de cómo debo encontrar anomalías de ejemplos, los ejemplos son sólo ilustrativos, estoy buscando solución común/algoritmo
Gracias de antemano por cualquier respuesta