6 votos

Cálculo del valor medio sin tener en cuenta los valores atípicos

Esto es más bien una pregunta de estadística general, aunque si importa estoy escribiendo código PHP.

Supongamos que intento calcular el valor medio de un juguete que suele comprarse y venderse en el mercado secundario, y tengo un conjunto de valores de precios extraídos tanto de las subastas como de los datos de "precio pagado" introducidos por el usuario. Los puntos de datos que representan subastas son bastante fiables, pero también obtengo algún punto de datos del tipo "venta de garaje", donde alguien puede haber pagado un dólar para comprar algo a la tía Polly en una venta de garaje. El problema es que el $1 El tipo de puntos de datos no son realmente valiosos para mí, ya que no indican realmente el valor - la tía Polly no sabía nada mejor, y no le importaba. Del mismo modo, de vez en cuando puedo obtener un punto de datos procedentes de un bromista que entra $9000 por un juguete que en realidad sólo vale $9 .

Así que, a la hora de calcular el valor, ¿cuál es la mejor manera de eliminar este tipo de anomalías de unos datos que, por lo demás, son útiles?

He leído sobre los valores atípicos, y algo sobre ignorar generalmente cualquier cosa que esté más de 2,5 desviaciones estándar fuera del resto de los datos, pero estoy buscando la receta completa, aquí.

¡Muchas gracias!

11voto

BQ. Puntos 3975

Sí, porque si Z tiene un dual, entonces en particular Z ⊗ - tiene un adjunto izquierdo (Z * ⊗ -) y, por tanto, conmuta con los límites (y de forma similar con los colímites, pero eso es automático si la categoría es monoidal cerrada).

5voto

Valentin Rocher Puntos 121

Podría considerar el uso de un media recortada . Esto implicaría descartar, por ejemplo, el 10% de los valores más altos y el 10% de los valores más bajos, independientemente de que los considere malos.

3voto

pkaeding Puntos 12935

si quieres una solución eficiente, usar un Buck Converter sería una opción inteligente. puedes construirlo con componentes discretos (inductor, diodo, condensador y transistor) o puedes usar algún IC.

http://en.wikipedia.org/wiki/Buck_converter

0voto

sabre23t Puntos 199

Quizás un estimador robusto como RANSAC podría utilizarse aquí.

-1voto

Owen Fraser-Green Puntos 642

Espero que esto ayude

Los enfoques simplistas, como los sugeridos aquí, suelen fallar por su falta de generalidad. En general, se puede tener una serie que tenga múltiples tendencias y/o múltiples niveles, por lo que para detectar anomalías hay que "controlar" estos efectos. Además, puede haber un efecto estacional que puede haber comenzado en los últimos k períodos y no estar presente en los primeros n-k valores. Ahora vayamos al meollo del problema. Supongamos que no hay desplazamientos de la media/sin cambios de tendencia/sin estructura de pulso estacional en los datos. Los datos pueden estar autocorrelacionados, lo que hace que la desviación típica simple esté sobreestimada o infraestimada, dependiendo de la naturaleza de la autocorrelación. La posible existencia de pulsos, pulsos estacionales, cambios de nivel y/o tendencias temporales locales ofusca la identificación de las "excepciones". El uso de una "mala desviación estándar" para tratar de identificar las anomalías es defectuoso porque es una prueba fuera del modelo en comparación con una "prueba dentro del modelo" que, en última instancia, es lo que se utiliza para concluir sobre la importancia estadística de las anomilías. Puede buscar en Google "cómo hacer la detección de intervención estadística" para ayudarle a encontrar fuentes/software para hacer esto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X