'Outlier' es un término conveniente para la recolección de datos que no se ajusten a lo que usted espera que su proceso de ver como, con el fin de eliminar de los análisis.
Yo sugeriría que nunca (advertencia más tarde) la eliminación de valores atípicos. Mi fondo es el control estadístico de procesos, por lo que a menudo se enfrentan con grandes volúmenes de generado automáticamente el tiempo de la serie de datos que se procesan mediante un diagrama de comportamiento / caja de mudanza parcela / etc. dependiendo de los datos y la distribución.
La cosa con los valores atípicos es que siempre van a proporcionar información sobre su 'proceso'. A menudo lo que usted está pensando como un proceso, es en realidad muchos de los procesos y es mucho más complejo de lo que le dan crédito.
Utilizando el ejemplo en tu pregunta, yo sugeriría que podría haber un número de 'procesos'. habrá variación debido a la ...
- las muestras tomadas por una conductancia dispositivo
- las muestras tomadas entre la conductancia de los dispositivos
- cuando el sujeto quitado la sonda
- cuando el sujeto se mueve
- diferencias dentro de la piel del sujeto a través de su cuerpo, o entre diferentes días de muestreo (cabello, humedad, aceite, etc)
- las diferencias entre los sujetos
- la formación de la persona que toma las mediciones y las variaciones entre el personal
Todos estos procesos se producen extra variación en los datos, y probablemente se mueva la media y cambiar la forma de la distribución. Muchos de estos, usted no será capaz de separar en distintos procesos.
Así que va a la idea de la eliminación de datos de puntos de 'outliers' ... sólo quiero quitar puntos de datos, cuando puedo , definitivamente, se les atribuye una particular 'proceso' que quiero no incluir en mi análisis. Entonces usted necesita para asegurarse de que las razones para la no inclusión se registran como parte de su análisis, por lo que es obvio. No suponga la atribución, que es la clave acerca de la toma de notas adicionales a través de la observación durante la recolección de datos.
Yo reto a su declaración "porque la mayoría de ellos son errores de todas formas", ya que no son errores, pero solo una parte de un proceso diferente que se han identificado dentro de sus medidas como diferente.
En tu ejemplo, creo que es razonable para excluir a los puntos de datos que se puede atribuir a un proceso independiente que no se desea analizar.