47 votos

¿Es aceptable retirar afloramientos de datos?

Yo buscaba una manera de eliminar los valores extremos de un conjunto de datos y me encontré con esta pregunta.

En algunos de los comentarios y respuestas a esta pregunta, sin embargo, la gente menciona que es una mala práctica para eliminar los valores extremos de los datos.

En mis datos tengo varios valores atípicos que muy probablemente son sólo debido a errores de medición. Incluso si algunos de ellos no son, no tengo manera de comprobar caso por caso, debido a que hay muchos puntos de datos. Es estadísticamente válida sólo para eliminar los valores atípicos? O, si no, ¿qué podría ser otra solución?

Si yo acaba de salir de aquellos puntos, se influyen por ejemplo, la media de una manera que no refleja la realidad (porque la mayoría de ellos son errores de todos modos).

EDIT: estoy trabajando con la conductancia de la piel de datos. La mayoría de los valores extremos son debido a los artefactos como alguien tirando de los cables.

EDIT2: Mi principal interés en el análisis de los datos es determinar si existe una diferencia entre los dos grupos

35voto

babubba Puntos 1213

Una opción es excluir los valores extremos, pero en mi humilde opinión eso es algo que sólo se debe hacer si se puede discutir (casi con certeza) ¿por qué esos puntos no son válidos (por ejemplo, el equipo de medición se rompió, el método de medición no era confiable por alguna razón, ...). E. g. en el dominio de la frecuencia de las mediciones, DC se desecha, ya que muchos términos diferentes contribuir a la DC, muy a menudo no relacionados con el fenómeno de que usted está tratando de observar.

El problema con la eliminación de valores atípicos, es que para determinar qué puntos son los valores atípicos, usted necesita tener un buen modelo de lo que es o no es "buenos datos". Si usted no está seguro acerca del modelo (los factores que deben ser incluidos, lo que estructura el modelo tiene, ¿cuáles son las suposiciones de que el ruido, ...), entonces usted no puede estar seguro acerca de sus valores atípicos. Los valores atípicos puede ser muestras de que están tratando de decir que el modelo es incorrecto. En otras palabras: la eliminación de valores atípicos reforzará su (incorrecta!) el modelo, en lugar de permitir que usted para obtener nuevos conocimientos!

Otra opción, es utilizar estadísticas robustas. E. g. la media y la desviación estándar son sensibles a los valores extremos, otras métricas de "ubicación" y "spread" son más robustos. E. g. en lugar de la media, el uso de la mediana. En lugar de la desviación estándar, el uso de inter-cuartil rango. En lugar de la estándar de la regresión de mínimos cuadrados, usted podría utilizar la regresión robusta. Todos los métodos robustos de restar importancia a los valores extremos de una u otra manera.

29voto

No recomiendo excluyendo cualquier valor atípico en el análisis principal (a menos que esté muy seguro de que están equivocados). Usted puede hacerlo en un análisis de sensibilidad, sin embargo, y comparar los resultados de los dos análisis. En la ciencia, a menudo se descubren cosas nuevas, precisamente cuando centrándose en los valores atípicos.

Para más detalles, sólo piense en el seminal Fleming del descubrimiento de la penicilina, basado en la contaminación accidental de sus experimentos con un molde:

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

Buscando en el pasado cercano o presente, la detección de valores atípicos se utiliza a menudo para la guía de la innovación en las ciencias biomédicas. Véase, por ejemplo, los siguientes artículos (con algunas adecuadas R códigos):

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

Por último, si usted tiene un motivo razonable para excluir algunos datos, usted puede, de preferencia en un análisis de sensibilidad, y no en la principal. Por ejemplo, usted podría excluir a todos los valores que no son biológicamente plausibles (tales como una temperatura de 48 grados Centígrados en un paciente séptico). Del mismo modo, se podría excluir a todos los de primera y última medición para cualquier paciente, para minimizar los artefactos de movimiento. Tome nota, sin embargo, que si hacer este post-hoc (no basado en una pre-criterios especificados), estos riesgos que asciende a los datos de masaje.

23voto

Rob Smallshire Puntos 472

Pensé en añadir un cuento con moraleja sobre la eliminación de valores atípicos:

Recuerde que el problema con el agujero en el polo de la capa de ozono? Hubo un satélite que fue puesto en órbita sobre el polo específicamente para medir la concentración de ozono. Para un par de años, el post-procesado de los datos del satélite informó que la polar de ozono presente en niveles normales, aunque otras fuentes mostraron claramente que la capa de ozono se estaba perdiendo. Por fin alguien se fue de nuevo a ver el satélite de software. Resultó que alguien había escrito el código para comprobar si el raw de medición se encontraba dentro de un rango esperado es el típico nivel histórico, y asumir que cualquier medición fuera del rango es sólo un instrumento 'pico' (he.e un valor atípico), auto-corrección del valor. Afortunadamente se había registrado también la raw de las mediciones; en la comprobación de ellos vieron que el agujero había sido reportado a lo largo de todos.

11voto

Marcus D Puntos 151

'Outlier' es un término conveniente para la recolección de datos que no se ajusten a lo que usted espera que su proceso de ver como, con el fin de eliminar de los análisis.

Yo sugeriría que nunca (advertencia más tarde) la eliminación de valores atípicos. Mi fondo es el control estadístico de procesos, por lo que a menudo se enfrentan con grandes volúmenes de generado automáticamente el tiempo de la serie de datos que se procesan mediante un diagrama de comportamiento / caja de mudanza parcela / etc. dependiendo de los datos y la distribución.

La cosa con los valores atípicos es que siempre van a proporcionar información sobre su 'proceso'. A menudo lo que usted está pensando como un proceso, es en realidad muchos de los procesos y es mucho más complejo de lo que le dan crédito.

Utilizando el ejemplo en tu pregunta, yo sugeriría que podría haber un número de 'procesos'. habrá variación debido a la ...

  • las muestras tomadas por una conductancia dispositivo
  • las muestras tomadas entre la conductancia de los dispositivos
  • cuando el sujeto quitado la sonda
  • cuando el sujeto se mueve
  • diferencias dentro de la piel del sujeto a través de su cuerpo, o entre diferentes días de muestreo (cabello, humedad, aceite, etc)
  • las diferencias entre los sujetos
  • la formación de la persona que toma las mediciones y las variaciones entre el personal

Todos estos procesos se producen extra variación en los datos, y probablemente se mueva la media y cambiar la forma de la distribución. Muchos de estos, usted no será capaz de separar en distintos procesos.

Así que va a la idea de la eliminación de datos de puntos de 'outliers' ... sólo quiero quitar puntos de datos, cuando puedo , definitivamente, se les atribuye una particular 'proceso' que quiero no incluir en mi análisis. Entonces usted necesita para asegurarse de que las razones para la no inclusión se registran como parte de su análisis, por lo que es obvio. No suponga la atribución, que es la clave acerca de la toma de notas adicionales a través de la observación durante la recolección de datos.

Yo reto a su declaración "porque la mayoría de ellos son errores de todas formas", ya que no son errores, pero solo una parte de un proceso diferente que se han identificado dentro de sus medidas como diferente.

En tu ejemplo, creo que es razonable para excluir a los puntos de datos que se puede atribuir a un proceso independiente que no se desea analizar.

7voto

darkonc Puntos 41

Si desea eliminar los valores atípicos, en la mayoría de los casos se necesita el documento que estás haciendo y por qué. Si se trata de un artículo científico, o para fines de regulación, esto podría resultar en tener sus estadísticas finales de descuento y/o rechazados.

La mejor solución es identificar cuando usted piensa que usted está recibiendo malos datos (por ejemplo, cuando la gente se tire de los cables), luego de identificar cuando las personas están tirando de los cables, y tire de los datos por esa razón. Esto probablemente también resultar en algo "bueno" de puntos de datos que se cayó, pero ahora tienen una 'real' razón de la etiqueta y el descuento de los puntos de datos en la final de colección más que en el análisis final. Mientras que hacerlo de manera limpia y transparente, es mucho más probable que sea aceptable a terceros. Si se quita de puntos de datos relacionados con la tira de cables, y usted todavía obtener los valores extremos, entonces la conclusión probable es que la tira cables no son (sólo) el problema ... el problema podría ser con el diseño del experimento, o su teoría.

Uno de los primeros experimentos que mi mamá tuvo al regresar a la universidad para terminar su Licenciatura fue uno donde los estudiantes recibieron una 'mala', la teoría acerca de cómo un proceso trabajado, y luego le dijo a ejecutar un experimento. Los estudiantes que eliminados o modificados, como resultado, 'malo' de puntos de datos de error de la asignación. Aquellos que correctamente informado de que sus datos estaba en desacuerdo con los resultados predichos por (el malo) en la teoría, pasado. El punto de la misión era la de enseñar a los estudiantes no 'arreglar' (falsificar) sus datos cuando no era lo que se esperaba.

Resumen: si usted está generando malos datos, a continuación, fije el experimento, no los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X