Esto es más bien una pregunta de estadística general, aunque si importa estoy escribiendo código PHP.
Supongamos que intento calcular el valor medio de un juguete que suele comprarse y venderse en el mercado secundario, y tengo un conjunto de valores de precios extraídos tanto de las subastas como de los datos de "precio pagado" introducidos por el usuario. Los puntos de datos que representan subastas son bastante fiables, pero también obtengo algún punto de datos del tipo "venta de garaje", donde alguien puede haber pagado un dólar para comprar algo a la tía Polly en una venta de garaje. El problema es que el $1
El tipo de puntos de datos no son realmente valiosos para mí, ya que no indican realmente el valor - la tía Polly no sabía nada mejor, y no le importaba. Del mismo modo, de vez en cuando puedo obtener un punto de datos procedentes de un bromista que entra $9000
por un juguete que en realidad sólo vale $9
.
Así que, a la hora de calcular el valor, ¿cuál es la mejor manera de eliminar este tipo de anomalías de unos datos que, por lo demás, son útiles?
He leído sobre los valores atípicos, y algo sobre ignorar generalmente cualquier cosa que esté más de 2,5 desviaciones estándar fuera del resto de los datos, pero estoy buscando la receta completa, aquí.
¡Muchas gracias!