Me gustaría saber las consecuencias de la eliminación de las colas de una distribución mediante la eliminación de observaciones por encima y por debajo de ciertos umbrales.
Por ejemplo, si uno se para calcular los percentiles de una medición, a continuación, retire todos los valores que están por debajo y por encima del percentil umbral en cada extremo (todas las observaciones por debajo de 1 de percentil, todas las observaciones por encima de percentil 99).
La intuición me dice que esto es una mala idea, pero me gustaría más explicación concreta de por qué.
Aquí hay algunas preguntas que tengo:
- ¿Cómo podría esto cambiar el comportamiento de la distribución?
- ¿Qué principios de la estadística están siendo violados aquí?
- ¿Cómo podría esto cambiar las conclusiones alcanzadas durante el análisis de estos datos?
- Es este un método viable para la eliminación de valores atípicos?
- Es esta estrategia aceptable en cualquier situación?
Gracias de antemano.
Editar:
Gracias por la respuesta, Glen_b. Como actividad de seguimiento, me gustaría preguntar acerca de una situación específica.
Supongamos que queremos calcular los puntajes estándar para una medición que cuenta por alguna covariable. Hacemos esto mediante la regresión de la medición en contra de la covariable, a continuación, obtener los puntajes estándar utilizando la predicción de las respuestas de la regresión.
Nos gustaría hacer este proceso más sólido a los valores atípicos.
Es aconsejable recortar los datos antes de cualquier análisis (sin la retención de la descartados los valores), luego de realizar el análisis?
Como una alternativa a simplemente desechar los datos, se podría ajustar un modelo de regresión utilizando una recortada subconjunto, a continuación, aplicar este modelo para estandarizar el conjunto de datos completo? Sería similar a lo Menos Recorta los Cuadrados de la Regresión?
Edición #2:
Aclaración: utilizamos la covariable como la variable independiente/predictor de la medición en la regresión.
El objetivo es corregir las mediciones en una covariable, ya que creemos que la medición es altamente dependiente de esta covariable.
Hacemos esto mediante la estandarización de los valores de la predicción de la respuesta del modelo de regresión. La normalización puede ser aplicado a los recién obtenido pares de medición y valores de la covariable para determinar si se comportan de manera similar a la muestra original.
$Z(Y_{i})$ = $\frac{y_{i}-E(y|x_{i})}{\hat{\sigma}}$
Los valores atípicos son una preocupación con respecto a la variable dependiente (y-outliers), la medición.
¿Qué tipo de regresión robusta sería el adecuado? M-estimación?