20 votos

Detección de valores atípicos en grupos muy pequeños

Necesito tener la mayor precisión posible, un valor para el brillo de una principalmente estable fuente de luz da doce de la muestra de valores de luminosidad. El sensor es imperfecta, y la luz de vez en cuando puede "parpadeo" más brillante o más oscuro, que puede ser ignorado, de ahí mi necesidad de la detección de valores atípicos (creo?).

He hecho un poco de lectura sobre los diferentes enfoques aquí y no se puede decidir cual es el método para ir. El número de valores atípicos no se conoce de antemano y a menudo serán cero. El parpadeo es generalmente un gran desviación de la estable brillo (lo suficiente como para meterse con cualquiera promedio tomado con un gran uno de los presentes), pero no necesariamente.

Aquí un ejemplo de un conjunto de 12 medidas para la integridad de la pregunta:

295.5214, 277.7749, 274.6538, 272.5897, 271.0733, 292.5856, 282.0986, 275.0419, 273.084, 273.1783, 274.0317, 290.1837

Mi sensación es que hay probablemente no hay valores atípicos en ese conjunto particular, aunque 292 y 295 parecer un poco alto.

Entonces, mi pregunta es, ¿cuál sería el mejor enfoque aquí? Debo mencionar que los valores vienen de tomar la distancia euclidiana de la R, G y B de los componentes de la luz de un cero (negro) punto. Sería mediante programación doloroso, pero posible, para llegar de nuevo a estos valores si es necesario. La distancia euclidiana fue utilizado como una medida de la "fuerza" como no me interesa el color, la fuerza de salida. Sin embargo, hay una posibilidad razonable de que el parpadeos que he mencionado tienen una diferente composición RGB a la salida usual.

En este momento estoy jugando con algún tipo de función que se repite hasta que la estabilidad de sus miembros permitido de las medidas que se alcanza por:

  1. Encontrar la desviación estándar
  2. Poniendo todo lo que fuera a decir 2 SDs en una lista de ignorados
  3. Volver a calcular la media y SD con la lista de ignorados, excluidos
  4. Re-decidir a quién ignorar basado en la nueva media y SD (evaluar todos 12)
  5. Repita hasta que estable.

¿Hay algún valor en ese enfoque?

Todos los comentarios que se aceptan y agradecen!

12voto

usεr11852 Puntos 5514

Los valores atípicos en muestras pequeñas puede siempre ser muy difíciles de detectar. En la mayoría de los casos en realidad, yo estaría a favor de que si siente que sus datos no son sin rodeos dañado, un "outlierish" valor podría ser problemático y su exclusión podría no ser razonable. Probablemente robustos mediante el uso de técnicas estadísticas será más sensible y más cerca de una media de tierra de la solución. Tienes una pequeña muestra; tratar de hacer cada punto de la muestra cuentan. :)

Con respecto a su enfoque sugerido: yo no tendría prisa de cumplir un supuesto de normalidad de los datos con un 68-95-99.7 artículo sobre ellos (como parece que de alguna manera lo hacen con su 2SD heurística de la regla). La desigualdad de Chebyshev para una vez que asume un 75-88.9-93.8 regla en ellos, que es claramente menos rígido. Otras "reglas" también existen; la Identificación de valores atípicos en la sección de valores Atípicos lema en wikipedia tiene un conjunto de heurísticas.

Aquí es otro: Un libro gratis de referencia que he encontrado sobre el tema, NIST/SEMATECH e-Manual de Métodos Estadísticos, presenta la siguiente idea por Iglewicz y Hoaglin (1993): el Uso modificados $Z$-puntuaciones $M$ tal forma que:

$M_i = .6745(x_i-\tilde{x})/MAD$

donde $\tilde{x}$ es la mediana y MAD es la mediana de la desviación absoluta de la muestra. A continuación, supongamos que los valores absolutos de $M$ por encima de 3.5 son los posibles valores atípicos. Es un semi-paramétrico de sugerencia (como la mayoría de ellos son, el parámetro aquí está la $3.5$). En el caso de ejemplo sería marginalmente excluir su 295.5 pero claramente conservar su 292.6 medida... (Por lo que vale la pena yo no excluir los valores de su caso de ejemplo.)

De nuevo, dado que hay una muy pequeña muestra, si usted cree que su muestra no es obviamente dañado (un humano 9'4" de altura), yo le aconsejo que no se excluya de los datos a toda prisa. Su "sospecha de valores atípicos" podría ser incorrupto de datos; su uso puede realmente ayudar en lugar de hacer daño a su análisis.

2voto

Pat Puntos 1698

Punto de la primera puede ser vale la pena volver a color rgb. Rara vez es buena para tirar de datos, y la magnitud del vector rgb no es la única forma para representar el brillo percibido de brillo es diferente, como es el valor en el VHS.

Pero dejando eso a un lado y tratar con los datos que tenemos, han considerado que la formación de este como un problema de clasificación en lugar de una modelización de uno, y haciendo algo de la máquina de aprendizaje? Usted tiene una entrada, que es un vector con 12 valores reales (el brillo de las lecturas). Tiene una salida, que es un vector de 12 valores binarios (1=inlier, 0=valor atípico). Obtener varios conjuntos de brillo de la lectura y de la mano con la etiqueta a sí mismo, mostrando que el brillo de la lectura en cada set es una inlier/valor atípico. Algo como esto:

x1 = {212.0, 209.6, 211.5, $\ldots$ , 213.0}, y1 = {1,0,1, $\ldots$,1}

x2 = {208.1, 207.9, 211.2, $\ldots$ , 208.2}, y2 = {1,1,0, $\ldots$,1}

x3 = {223.4, 222.9, 222.8, $\ldots$ , 223.0}, y3 = {1,1,1, $\ldots$,1}

$\ldots$

A continuación, ejecute la totalidad del lote a través de un clasificador de algún tipo:

  • Usted podría utilizar un clasificador único que salidas de 12 diferentes valores binarios - una red neuronal le permiten configurar esto con bastante facilidad.
  • O, se puede utilizar un estándar binario de clasificación (por ejemplo, SVMlite) y capacitar a los 12 modelos diferentes, uno de clasificar si cada elemento de la salida es una inlier/valor atípico.

Y listo! No hay necesidad de perder tiempo tratando de encontrar la 'regla' que separa inliers de valores atípicos a ti mismo. Acaba de obtener un par de conjuntos de datos que parecen sensatas y dejar que la máquina de hacer eso para usted :)

~~~

EDIT: por cierto, el método propuesto, donde de forma iterativa un ajuste gaussiano, a continuación, clasificar cada una de las muestras más de 2 desviaciones estándar de distancia como una de las demás, se parece mucho a una expectativa de maximización de algoritmo. Algo como esto:

  • Un solo componente gaussiana (modelado de la inliers)
  • Un fondo uniforme componente (outliers)
  • Algunos antes de probabilidad de cada uno de los que depende, en una manera no evidente en el ancho de la gaussiana (el 'clasificar en 2 desviaciones estándar' de la regla).
  • Difícil clasificación en la expectativa de paso.

Si tienes que ir por ese camino puede ser vale la pena buscar en google para algoritmos EM y la comprobación de las hipótesis que se está construyendo en el modelo.

0voto

vladr Puntos 299

Q prueba de Dixon para afloramientos en conjuntos de datos muy pequeña parece se ajusta bien a este tipo de situaciones:

http://en.wikipedia.org/wiki/Dixon%27s_Q_test

http://www.Chem.uoa.gr/applets/AppletQtest/Text_Qtest2.htm

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X