11 votos

Detección de valores atípicos mediante regresión

La regresión puede ser utilizada para la detección de los mentirosos. Entiendo que hay formas de mejorar un modelo de regresión eliminando los valores atípicos. Pero el objetivo principal no es ajustar un modelo de regresión, sino encontrar valores atípicos mediante la regresión.

13voto

AdamSane Puntos 1825

La mejor opción para utilizar la regresión para encontrar valores atípicos es utilizar la regresión robusta.

La regresión ordinaria puede verse afectada por los valores atípicos de dos maneras:

En primer lugar, un valor atípico extremo en la dirección y con valores x cercanos a $\bar x$ puede afectar al ajuste en esa zona del mismo modo que un valor atípico puede afectar a la media.

En segundo lugar, una observación "periférica" en el espacio x es un observación influyente - puede tirar del ajuste de la línea hacia ella. Si está lo suficientemente lejos, la línea pasará por el punto de influencia:

enter image description here

En el gráfico de la izquierda, hay un punto bastante influyente que aleja la línea del grueso de los datos. En el gráfico de la derecha, se ha alejado aún más, y ahora la línea pasa por el punto. Cuando el valor x es tan extremo, al mover ese punto hacia arriba y hacia abajo, la línea se mueve con él, pasando por la media de los otros puntos y por el punto influyente.

Un punto influyente que es perfectamente coherente con el resto de los datos puede no ser un problema tan grande, pero uno que está lejos de una línea que pasa por el resto de los datos hará que la línea se ajuste a él, en lugar de a los datos.

Si miras el gráfico de la derecha, la línea roja - la línea de regresión de mínimos cuadrados - no lo hace muestran el punto extremo como un valor atípico en absoluto - su residuo es 0. ¡En cambio, los grandes residuos de la línea de mínimos cuadrados están en la parte principal de los datos!

Esto significa que se puede perder por completo un valor atípico .

Peor aún, con la regresión múltiple, un valor atípico en el espacio x puede no parecer particularmente inusual para una sola variable x. Si existe la posibilidad de ese punto, es potencialmente muy arriesgado utilizar la regresión por mínimos cuadrados.

Regresión robusta

Si se ajusta una línea robusta -en particular una robusta a valores atípicos influyentes - como la línea verde del segundo gráfico, entonces el valor atípico tiene un residuo muy grande.

En que En este caso, tienes alguna esperanza de identificar los valores atípicos: serán puntos que no están, en cierto sentido, cerca de la línea.


Eliminación de valores atípicos

Ciertamente, se puede utilizar una regresión robusta para identificar y, por tanto, eliminar los valores atípicos.

Pero una vez que se tiene un ajuste de regresión robusto, que no se ve muy afectado por los valores atípicos, no es necesario eliminar los valores atípicos: ya se tiene un modelo que se ajusta bien.

-2voto

Stefano Puntos 1

La regresión puede utilizarse para la detección de valores atípicos.

Sí. Esta respuesta y la de Glen_b lo abordan.

El objetivo principal no es ajustar un modelo de regresión, sino averiguar los mentirosos utilizando la regresión

Basándose en el comentario de Roman Lustrik, he aquí una heurística para encontrar valores atípicos utilizando la regresión (lineal múltiple).

Digamos que tienes un tamaño de muestra $n$ . Entonces, haz lo siguiente:

  1. Ajustar un modelo de regresión en el $n$ ejemplos. Anota su residuo suma de cuadrados error $r_{total}$ .

  2. Para cada muestra i, ajuste un modelo de regresión sobre los n-1 ejemplos (excluyendo el ejemplo i) y anote la correspondiente suma residual del error cuadrático $r_i$ .

  3. Ahora, compara $r_i$ con $r_tot$ para cada $i$ , si $r_i << r_{total}$ , entonces $i$ es un candidato atípico.

Dejando a un lado estos candidatos a puntos atípicos, podemos repetir todo el ejercicio de nuevo con la muestra reducida. En el algoritmo, estamos eligiendo ejemplos en los datos que están influyendo en el ajuste de la regresión de una manera mala (que es una manera de etiquetar un ejemplo como un valor atípico).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X