4 votos

Inteligente selección de afloramientos

Estoy tratando de eliminar lo que podría ser considerado "razonable" de datos, evaluando el porcentaje de error en la media y la raíz cuadrada de la varianza. Esta es la configuración:

Digamos que tengo tres ofertas en un contrato. Los contratistas total de las ofertas son todos relativamente cerca. Pero el desglose pormenorizado de las ofertas puede tener extremadamente altas variaciones en ellos.

Por ejemplo:

  # Total Bid  Item 1  Item 2  Item 3  Item 4  Item 5
  - ---------  ------  ------  ------  ------  ------
  1 827,558    1,026   27.7    800     1,000   1,998
  2 667,118    950     25      80      3,000   23
  3 720,909    1,100   25      25      1,100   22.4
--- ---------  ------  ------  ------  ------  ------  
err 9.03       5.97    4.91    117     54.1    136.78

El "error" es el porcentaje de error entre la media y la raíz cuadrada de la varianza de cada grupo, que se calcula como:

((mean - var^(1/2)) / mean) * 100

Esta métrica se hace un gran trabajo representando el problema que yo creo que es necesario abordar. Por ejemplo, el % de error de los puntos 1 y 2 muestran que los licitadores oferta bastante consistente. También indica que el elemento de las ofertas eran más consistentes de la oferta totales (error 9.03%).

Por el contrario, los Artículos 3 a 5 muestran un mayor grado de incoherencia, que van desde 54% a más de 136%.

Aquí es lo que yo sé acerca de los datos a priori:

El alto de las ofertas del Artículo 3 y el Artículo 5 de la basura. Por eso, quiero decir, no hay forma real se han anticipado a las ofertas. Es sólo el postor jugando con la forma en que detallar sus ofertas (realmente altos en un elemento, muy bajo en otro) para mitigar los costes adicionales si se consigue la adjudicación del contrato. En ambos Artículos 3 y 5, la menor de las ofertas son mucho más cercana al valor de la obra.

El punto 4 es más ambigua de distribución. Podría ser que las ofertas más bajas representan el valor de la obra de forma más precisa (y probablemente, lo hacen), pero también puede ser el valor es mayor de la que parece. Yo podría ser reacios a tirar la oferta más alta y tal vez considerar la posibilidad de un promedio ponderado como el valor real de la obra.

También debo señalar, que estoy usando estos datos con una red neuronal. Idealmente, el modelo de predicción del error sería de 15% o menos.

Así, con el fin de tratar esto como la manera más conservadora posible, manteniendo los valores atípicos que razonablemente podría contribuir a la modelo mientras que tirar los que, obviamente, son inútiles, he pensado en un par de enfoques:

  1. Rechazar todas las ofertas para un elemento si el elemento del % de error supera un umbral establecido.

  2. Rechazar sólo la mayoría de variantes de las ofertas cuando el % de error supera el valor de umbral.

A mí me parece el mejor método podría ser el #1, el uso de un umbral que se escala con el error deseado de la modelo...

3voto

MrGomez Puntos 153

Después de tomar algún tiempo para investigar el tema de las estadísticas robustas más a fondo, he optado por una mejor, aunque no ideal, la forma de seleccionar mis valores atípicos.

Este post identifica a la Media de la Desviación Absoluta (MAD) como una excelente alternativa robusta a la media de la varianza. Por supuesto, su aplicación es univariante y mi caso de uso es multivariante.

Por lo tanto, cavé un poco más y descubrí el rrcov paquete en R. funciona muy bien, proporcionando parcelas de distancia multivariante de datos. Se han identificado los puntos sabía a priori de los valores atípicos, así como un buen número de puntos que he podido lo contrario no se han identificado.

La implementación estoy optando por la, entonces, es realizar este multivariante distancia de análisis utilizando las herramientas proporcionadas por el rrcov de la biblioteca. La reducción de los datos a una serie de distancias a partir de la mediana, me, a continuación, puede aplicar un univariante técnica como un LOCO para seleccionar la variante menos (o más cercano) puntos de datos.

Un par de advertencias que he identificado:

  1. La capacidad para detectar valores atípicos es limitado por lo bien que las características del conjunto de datos que describen la variable dependiente. Por lo tanto, no puedo asumir que, porque he usado una técnica multivariante, que estoy detectar los "verdaderos" valores atípicos. Por el contrario, como he descubrir otras características que pueden describir mejor la variable dependiente, que puedo esperar de mi la detección de valores atípicos para mejorar también.
  2. Mientras estadísticas robustas como un LOCO tolerar el uso de cut-off reglas, esto requiere de ciertos supuestos acerca de los datos que no se aplica en mi caso. Por lo tanto, he optado por simplemente tomar un porcentaje fijo de la "más cercano" puntos de datos (por ejemplo, 95%), observando que el resto de la izquierda será la mayoría de variantes de las características de los datos que he elegido.
  3. MAD supone un simétrica la distribución de los datos. No la tengo, por desgracia. Como resultado, estoy usando el estimador de S (ver Wikipedia), que emplea la diferencia relativa entre los puntos de datos y es, por lo tanto, menos susceptibles a las distribuciones asimétricas.

Esta pregunta (y user603 fantástico de ideas) me ha dado una comprensión mucho mejor de sólidos métodos estadísticos, y ciertamente estoy más cómodo con la idea de eliminar los valores atípicos. Puede ser cierto que cada punto "está ahí por una razón", pero hasta que no puede describir adecuadamente que la razón (como relevantes características dataset), simplemente no es un útil punto de datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X