5 votos

Hay un error estadístico en los resultados.

He leído estas preguntas y esto no es duplicado de ellos


He recogido datos estadísticos sobre las personas

Jerarquía de datos es como este:

  • Región
    • Calle
      • El número de edificio
      • Número de entrada
        • [Paquete estadístico]

[Paquete estadístico] contiene (en este ejemplo)

  • piso (stock) número de
  • UUID (definición de la plana)
  • La religión
  • Aparición de toilete

Qué algoritmo o procedimiento debo usar para descubrir anomalías como: o Lo estadístico marco de programación debo usar?
(incluyendo lo que es mejor subrayando la tecnología - como SQL o Documento orientado a la DB, interpretado o compilado idioma, y así sucesivamente)

1-a :: de una sola planta (de todos los pisos en el edificio) no tiene aseos
1-b :: Uno plano (UUID) no tiene inodoro, aunque todos los otros pisos en la entrada/edificio cuenta con, al menos, en
2-a :: Hay un plano alegando que la Religión X a pesar de toda la Región se ha Religiones y y Z
2-b :: No es un edificio alegando que la Religión X a pesar de toda la Región se ha Religiones y y Z

Pero este es el único ejemplo en el limitado número de paquete Estadístico de atributos, que debo encontrar muchos tipos de anomalías en alrededor de 15 atributos en cada paquete Estadístico

Nota: esta pregunta no es acerca de cómo debo encontrar anomalías de ejemplos, los ejemplos son sólo ilustrativos, estoy buscando solución común/algoritmo

Gracias de antemano por cualquier respuesta

5voto

James Puntos 732

Me gustaría utilizar una base de datos relacional que ha OLAP características, la organización de los datos en un esquema en estrella , así:

Fact: UUID
Dimensions: Region, Street, Building number, Entrance number, Floor (stock) number, Religion, Appearance of toilete

A continuación, me gustaría hacer un ver a través de ella con un gran número de características, el promedio de la religión por región, por construcción, la aparición de aseo por planta/edificio, etc ...

Vector: UUID, Dimensions: Region, Street ..., Features: average per X, max per Y ... etc

Ahora tengo un gran espacio vectorial a la bruja que se puede aplicar fácilmente común la detección de anomalías en los algoritmos.

Por ejemplo, digamos que la capacitación data size (m) < 10 * number of features (n) y estamos en un razonable computadora encendida para aplicar multivariante de Gauss de densidad de probabilidad de la estimación.

Para nuestro entrenamiento vectores

\begin{align*} {x^{(i)}} \in \mathbb{R}^n, i \in 1..m \end{align*}

Nuestra función de probabilidad es: \begin{align*} p(x, \mu, \Sigma)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{n/2}}exp\bigg(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\bigg) \end{align*}

Así tenemos que se ajuste a los parámetros:

\begin{align*} \mu=\frac{1}{m}\sum_{i=1}^mx^{(i)} \space , \space \Sigma=\frac{1}{m}\sum_{i=1}^m(x^{(i)}-\mu)(x^{(i)}-\mu)^T \end{align*}

Ahora, que podemos calcular $p(x, \mu, \Sigma)$ podemos bandera de un hecho anómalo si:

\begin{align*} p(x, \mu, \Sigma)<\epsilon \end{align*}

Variando $\epsilon$ vamos a ampliar o restringir nuestra anómala hechos de clase, y para valores pequeños de a $\epsilon$ vamos a encontrar el más alejado de los valores atípicos (suponiendo que las hay).

Todo lo que hay que hacer ahora es variar $\epsilon$ y analizar los diferentes resultados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X