Hay un error estadístico en los resultados.

Question

Hay un error estadístico en los resultados.

Preguntado el 30 de Agosto, 2011: Cuando se hizo la pregunta
496 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

He leído estas preguntas y esto no es duplicado de ellos

He recogido datos estadísticos sobre las personas

Jerarquía de datos es como este:

Región
- Calle
  - El número de edificio
  - Número de entrada
    - [Paquete estadístico]

[Paquete estadístico] contiene (en este ejemplo)

piso (stock) número de
UUID (definición de la plana)
La religión
Aparición de toilete

Qué algoritmo o procedimiento debo usar para descubrir anomalías como: o Lo estadístico marco de programación debo usar?
(incluyendo lo que es mejor subrayando la tecnología - como SQL o Documento orientado a la DB, interpretado o compilado idioma, y así sucesivamente)

1-a :: de una sola planta (de todos los pisos en el edificio) no tiene aseos
1-b :: Uno plano (UUID) no tiene inodoro, aunque todos los otros pisos en la entrada/edificio cuenta con, al menos, en
2-a :: Hay un plano alegando que la Religión X a pesar de toda la Región se ha Religiones y y Z
2-b :: No es un edificio alegando que la Religión X a pesar de toda la Región se ha Religiones y y Z

Pero este es el único ejemplo en el limitado número de paquete Estadístico de atributos, que debo encontrar muchos tipos de anomalías en alrededor de 15 atributos en cada paquete Estadístico

Nota: esta pregunta no es acerca de cómo debo encontrar anomalías de ejemplos, los ejemplos son sólo ilustrativos, estoy buscando solución común/algoritmo

Gracias de antemano por cualquier respuesta

Preguntado el 30 de Agosto, 2011 por Ames

Answer 1

1 Respuestas

Answer 2

5voto

James Puntos 732

Me gustaría utilizar una base de datos relacional que ha OLAP características, la organización de los datos en un esquema en estrella , así:

Fact: UUID
Dimensions: Region, Street, Building number, Entrance number, Floor (stock) number, Religion, Appearance of toilete

A continuación, me gustaría hacer un ver a través de ella con un gran número de características, el promedio de la religión por región, por construcción, la aparición de aseo por planta/edificio, etc ...

Vector: UUID, Dimensions: Region, Street ..., Features: average per X, max per Y ... etc

Ahora tengo un gran espacio vectorial a la bruja que se puede aplicar fácilmente común la detección de anomalías en los algoritmos.

Por ejemplo, digamos que la capacitación data size (m) < 10 * number of features (n) y estamos en un razonable computadora encendida para aplicar multivariante de Gauss de densidad de probabilidad de la estimación.

Para nuestro entrenamiento vectores

\begin{align*} {x^{(i)}} \in \mathbb{R}^n, i \in 1..m \end{align*}

Nuestra función de probabilidad es: \begin{align*} p(x, \mu, \Sigma)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{n/2}}exp\bigg(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\bigg) \end{align*}

Así tenemos que se ajuste a los parámetros:

\begin{align*} \mu=\frac{1}{m}\sum_{i=1}^mx^{(i)} \space , \space \Sigma=\frac{1}{m}\sum_{i=1}^m(x^{(i)}-\mu)(x^{(i)}-\mu)^T \end{align*}

Ahora, que podemos calcular $p(x, \mu, \Sigma)$ podemos bandera de un hecho anómalo si:

\begin{align*} p(x, \mu, \Sigma)<\epsilon \end{align*}

Variando $\epsilon$ vamos a ampliar o restringir nuestra anómala hechos de clase, y para valores pequeños de a $\epsilon$ vamos a encontrar el más alejado de los valores atípicos (suponiendo que las hay).

Todo lo que hay que hacer ahora es variar $\epsilon$ y analizar los diferentes resultados.

Respondido el 2 de Enero, 2012 por James (732 Puntos )

Hay un error estadístico en los resultados.

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Hay un error estadístico en los resultados.

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: