EDIT: Fondo: necesito (lin) a escala de un gran conjunto de datos para el correo.g [0,10]. Los valores atípicos (en el ejemplo a continuación 1 y 10000 de conseguir (no lin) asignada a resp 0 y 10, el resto (50,51 en este caso) se escala por encima de 0 a 10 El objetivo es atrapar tanto como los números en este rango. Si no me protejo contra muy grande/pequeña valores atípicos todos los demás valores se asignan a una muy pequeña gama si eso sucede.
Asumir que tengo un gran conjunto de datos (millones de números), y quiero que el más pequeño de la gama, sin valores atípicos.
Así por ejemplo, la que yo tengo:
$$x=[1,1,50,50,50,50,50,50,50,50,51,51,51,51,10000,10000]$$
Estoy buscando "la más pequeña de la gama, que incluyen el número máximo de números", así que estoy buscando un algoritmo que encuentra $50$ (límite inferior) y $51$ (límite superior) en este caso.
Mi pregunta:
- ¿Cuál es la estadística de término o nombre de este tipo de preguntas?
- ¿Cómo puedo solucionar esto?
- (Para los académicos) los documentos y/o investigadores que escribieron acerca de las diferentes posibilidades acerca de la solución de este.
Mis ideas:
Así que mi idea inicial era: rango = [media/media $\pm$ $1$ o $2$ desviaciones estándar)
$$\matriz{\text{media}(x) &=& 1287\\ \text{std}(x) &=& 3292\\ \text{media}(x) - \text{std}(x) &=& -2005}$$
Así que no es una solución, por lo que el segundo pensamiento:
$$\text{median}(x) - \text{std}(x) = -3242$$
Así que también no ayuda.