15 votos

Está engañando para eliminar a los valores extremos basados en el boxplot de Error absoluto medio para mejorar un modelo de regresión

Tengo un modelo de predicción probado con los cuatro métodos como se puede ver en el boxplot figura a continuación. El atributo que predice el modelo está en el rango de 0-8.

Usted puede notar que hay una-límite superior de valores atípicos y tres de baja obligado valores atípicos indicado por todos los métodos. Me pregunto si es conveniente eliminar estas instancias a partir de los datos? O es esto una especie de trampa para mejorar el modelo de predicción?

enter image description here

22voto

Aksakal Puntos 11351

Es casi siempre una trampa para eliminar las observaciones para mejorar un modelo de regresión. Usted debe dejar de observaciones sólo cuando usted realmente piensa que estas son en realidad los valores atípicos.

Por ejemplo, usted tiene la serie de tiempo de la frecuencia cardiaca el monitor conectado a su reloj inteligente. Si usted echa un vistazo a la serie, es fácil ver que no sería erróneo observaciones con lecturas como 300bps. Estos deben ser removidos, pero no porque quieres mejorar el modelo (lo que significa). Son errores en la lectura que no tienen nada que ver con el ritmo de su corazón.

Una cosa a tener cuidado es la correlación de los errores en los datos. En mi ejemplo, se podría argumentar que tiene errores cuando el monitor de ritmo cardíaco es desplazadas durante los ejercicios como correr o saltar. Que hará que estos errores correlacionados con el corazón de la tasa. En este caso, se debe tener cuidado en la eliminación de estos valores atípicos y los errores, porque no son al azar

Te voy a dar un ejemplo de cuando no eliminar los valores atípicos. Digamos que usted está midiendo el movimiento de un peso en una primavera. Si el peso es pequeño en relación a la fuerza del peso, entonces te darás cuenta de que Hooke la ley funciona muy bien: $$F=-k\Delta x,$$ where $F$ is force, $k$ - tension coefficient and $\Delta x$ es la posición del peso.

Ahora bien, si se ponen muy pesados o desplazar el peso demasiado, vamos a empezar a ver las desviaciones: en lo suficientemente grandes desplazamientos de la $\Delta x$ el movimiento se parecen desviarse del modelo lineal. Así, usted puede ser tentado para eliminar los valores atípicos para mejorar el modelo lineal. Esta no sería una buena idea, debido a que el modelo no está funcionando muy bien ya que la ley de Hooke es sólo aproximadamente el derecho.

ACTUALIZACIÓN En tu caso yo sugeriría tirando de los puntos de datos y mirarlos más de cerca. Podría ser el instrumento del laboratorio fracaso? La interferencia externa? Ejemplo de defecto? etc.

El siguiente tratar de identificar si la presnece de estos valores atípicos puede ser correlacionada con lo que se mide, como en el ejemplo que me dio. Si no hay correlación no hay ninguna manera sencilla de hacerlo. Si no hay correlación, a continuación, puede eliminar los valores atípicos

4voto

user41767 Puntos 413

Originalmente quería publicar esto como un comentario a otra respuesta, pero fue demasiado larga.

Cuando miro a su modelo, no necesariamente contienen un grupo grande y algunos valores atípicos. En mi opinión, contiene 1 grupo de tamaño medio (de 1 a -1) y, a continuación, 6 grupos más pequeños, cada uno se encuentra entre 2 números enteros. Puede ver claramente que cuando se llega a un número entero, hay menos observaciones en esas frecuencias. El único punto es 0, donde realmente no existe una apreciable caída en las observaciones.

En mi opinión, vale la pena abordar el porqué de esta distribución se extendió como este:

  • ¿Por qué la distribución de estos observación de conteo de gotas para los números enteros?
  • ¿por qué esta observación recuento de la gota no suceder en 0?
  • Qué es tan especial acerca de estos valores atípicos que son valores atípicos?

Cuando la medición discreta de las acciones humanas, siempre vas a tener los valores atípicos. Puede ser interesante ver por qué los valores atípicos no se ajustan al modelo, y cómo pueden ser utilizados para mejorar las futuras versiones de su modelo.

2voto

David Puntos 41

Hay pros y contras para la eliminación de valores atípicos y construir el modelo de "patrón normal".

  • Pros: el modelo de rendimiento es mejor. La intuición es que, es muy difícil el uso de UN modelo para capturar el "patrón normal" y "atípico patrón". Así que eliminar los valores extremos y decir, sólo debemos construir un modelo para el "patrón normal".

  • Contras: no vamos a ser capaces de predecir para los valores atípicos. En otras palabras, supongamos que ponemos a nuestro modelo de producción, habría que faltaban algunas predicciones a partir del modelo de

Yo sugeriría para eliminar los valores extremos y la construcción del modelo, y si es posible tratar de construir un modelo independiente de las demás sólo.

La palabra "trampa", si son de papel de escribir y explícitamente lista ¿cómo definir y eliminar los valores extremos, y la mención a la mejora del rendimiento es en la limpieza de datos solamente. Esto no es hacer trampa.

2voto

user151162 Puntos 11

Creo que es razonable para eliminar los valores extremos cuando uno tiene una sólida cualitativa razón para hacerlo. Con esto quiero decir que uno tiene información de que otra variable, que no está en el modelo, está afectando a la de las demás observaciones. Entonces uno tiene la opción de eliminar los valores atípicos o agregar variables adicionales.

Me parece que cuando tengo outlier observaciones dentro de mi conjunto de datos, mediante el estudio para determinar por qué el outlier existe, tengo que aprender más acerca de mis datos y posibles otros modelos a tener en cuenta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X