Estoy tratando de eliminar lo que podría ser considerado "razonable" de datos, evaluando el porcentaje de error en la media y la raíz cuadrada de la varianza. Esta es la configuración:
Digamos que tengo tres ofertas en un contrato. Los contratistas total de las ofertas son todos relativamente cerca. Pero el desglose pormenorizado de las ofertas puede tener extremadamente altas variaciones en ellos.
Por ejemplo:
# Total Bid Item 1 Item 2 Item 3 Item 4 Item 5
- --------- ------ ------ ------ ------ ------
1 827,558 1,026 27.7 800 1,000 1,998
2 667,118 950 25 80 3,000 23
3 720,909 1,100 25 25 1,100 22.4
--- --------- ------ ------ ------ ------ ------
err 9.03 5.97 4.91 117 54.1 136.78
El "error" es el porcentaje de error entre la media y la raíz cuadrada de la varianza de cada grupo, que se calcula como:
((mean - var^(1/2)) / mean) * 100
Esta métrica se hace un gran trabajo representando el problema que yo creo que es necesario abordar. Por ejemplo, el % de error de los puntos 1 y 2 muestran que los licitadores oferta bastante consistente. También indica que el elemento de las ofertas eran más consistentes de la oferta totales (error 9.03%).
Por el contrario, los Artículos 3 a 5 muestran un mayor grado de incoherencia, que van desde 54% a más de 136%.
Aquí es lo que yo sé acerca de los datos a priori:
El alto de las ofertas del Artículo 3 y el Artículo 5 de la basura. Por eso, quiero decir, no hay forma real se han anticipado a las ofertas. Es sólo el postor jugando con la forma en que detallar sus ofertas (realmente altos en un elemento, muy bajo en otro) para mitigar los costes adicionales si se consigue la adjudicación del contrato. En ambos Artículos 3 y 5, la menor de las ofertas son mucho más cercana al valor de la obra.
El punto 4 es más ambigua de distribución. Podría ser que las ofertas más bajas representan el valor de la obra de forma más precisa (y probablemente, lo hacen), pero también puede ser el valor es mayor de la que parece. Yo podría ser reacios a tirar la oferta más alta y tal vez considerar la posibilidad de un promedio ponderado como el valor real de la obra.
También debo señalar, que estoy usando estos datos con una red neuronal. Idealmente, el modelo de predicción del error sería de 15% o menos.
Así, con el fin de tratar esto como la manera más conservadora posible, manteniendo los valores atípicos que razonablemente podría contribuir a la modelo mientras que tirar los que, obviamente, son inútiles, he pensado en un par de enfoques:
Rechazar todas las ofertas para un elemento si el elemento del % de error supera un umbral establecido.
Rechazar sólo la mayoría de variantes de las ofertas cuando el % de error supera el valor de umbral.
A mí me parece el mejor método podría ser el #1, el uso de un umbral que se escala con el error deseado de la modelo...