6 votos

Detección de puntos anormales en la nube de puntos

Yo hice la misma pregunta en Matemáticas SE, pero la sugerencia es que probablemente esta pregunta pertenece aquí.

Dada una lista de nube de puntos en términos de $(x,y,z)$ cómo determinar anormal puntos?

Esta es la motivación. Tenemos que reconstruir una superficie del terreno a partir de esos nube de puntos, que los agrimensores obtener al realizar el estudio de campo. Los agrimensores tomaría un equipo y el registro de una muestra suficiente de la $x,y,z$ de un terreno. Esos puntos serán registrados en un programa de CAD.

El problema es que el archivo de CAD puede ser dañado de tiempo en tiempo con la introducción de "anormal", apunta. Esos puntos no se ajustan a la superficie del terreno en general, y tienden a tener errónea $z$ valor ( es decir, el $z$ valor está fuera del rango normal).

Soy consciente de que la definición de anormal puntos es un poco floja; y yo no puede venir para arriba con una definición rigurosa de la misma. Sin embargo, yo sé lo que es un anormal punto cuando veo el dibujo.

Dados todos estos factores, hay algún algoritmo para detectar este tipo de anomalías en los puntos?

24voto

jldugger Puntos 7490

Un valor atípico detector para su irregular ("vector") punto de datos está disponible en la HIERBA como v. de valores atípicos.

Una visión general de los métodos de detección de outliers aparece en un papel de 2004 por Cheng y Li.

Un método anterior, especializados para el levantamiento topográfico de datos, se basa en "el drenaje de la aplicación" (haciendo que el flujo de agua cuesta abajo de forma continua sin acumular en los lavabos). Que puede encontrar algunos de los valores atípicos, pero probablemente no todos ellos.

Un método más genérico es la adecuación de un local indicador de la variabilidad espacial, como un local de Moran I estadística, para identificar los puntos que son "demasiado lejos" de distancia de la superficie. GeoDa puede calcular estadísticas.

15voto

Unsliced Puntos 5800

Creo que este problema se basa sólo en los valores extremos de la variable $z$.

El inspector examina una cuadrícula de $x$,$y$ los puntos que están "bien portados". Por otro lado $z$ puntos puede contener valores anormales (en las estadísticas llamamos valores atípicos).

Yo sugeriría a explorar los valores de $z$, y la trama de $(x,y,z)$.

A partir de esos terrenos, es claro que los valores anormales de $z$ ocurren aislados.

Supongamos que tenemos una cuadrícula rectangular de puntos de $x_k, y_k$, en cada punto de la cuadrícula tenemos un valor de $z$ que denominaremos como $z_{k,k}$.

Así, si pensamos en la $z_k$ es un anormal punto, esperamos una baja correlación entre $(x_k,y_k,z_{k,k})$$(x_{k+1},y_{k},z_{k+1,k})$.

En general, se espera una baja correlación entre el $(x_k,y_k,z_{k,k})$ en sus vecinos,$\mathcal{N}(k,k)$. Una manera de medir la correlación espacial entre el punto de $(k,k)$ y su barrio es el variograma empírico definido por:

$\hat{\gamma}(k,k) = \frac{1}{\#\mathcal{N}(k,k)} \sum_{(i,j), (p,q) \in \mathcal{N}(k,k)} | z_{i,j} - z_{p,q} |^2$.

Si se calculan $\hat{\gamma}(k,k)$ para el conjunto de la cuadrícula, usted puede estar seguro de que los valores atípicos en el variograma empírico son de hecho anormal puntos.

Un boxplot puede ser útil para identificar los valores atípicos.

Utilizando el variograma es una manera de asegurarse de que en realidad estás leyendo un anormal punto. Supongamos que su inspectores de escaneo de una pendiente, entonces te darás cuenta de que el $z_{k,k}$ tiene valores altos, pero también de sus vecinos. En caso de que el punto es anormal sólo $z_{k,k}$ tienen valores altos.

NOTA: Si está seguro de que su agrimensores están analizando un lugar de la superficie plana, deshacerse del variograma y hacer un boxplot de $z$, cualquier valor atípico identificados por el boxplot es un anormal punto.

2voto

Berek Bryan Puntos 349

Usted podría encajar algún tipo de función suave para $z(x,y)$, tal vez usando localmente ponderada diagrama de dispersión de suavizado (LOWESS o LOESS), a continuación, busque los puntos donde el valor residual para $z$ (es decir, la diferencia entre lo observado y los valores ajustados) es mayor de lo que algunos han corregido varios de el error estándar de la predicción. Que debe ser sencillo, por ejemplo, en R el uso de la loess función en el estándar stats paquete.

1voto

Son los puntos relativamente densa en su superficie? Entonces sugiero contar el número de puntos en una esfera alrededor de cada punto. Elegir el radio de la esfera a ser un poco menos de la distancia de los "anormales" puntos a la superficie - tal vez la mitad de lo que suelen tener. A continuación, tirar de los puntos donde el número de otros puntos del interior de esa esfera es muy baja. (No sé si sus valores atípicos se produce en pequeños grupos, o si son puntos aislados; esta técnica debe trabajar para cualquiera de los casos.)

Si un ingenuo aplicación recoge los puntos correctos, pero es demasiado lento, y usted está luchando para venir para arriba con un algoritmo más rápido para hacer lo mismo, a continuación, háganoslo saber. Estoy seguro de que podría venir para arriba con algo :)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X