4 votos

Outlier en la regresión lineal

Mi conjunto de datos consta de transacciones a nivel diario, que puede ser positivo o negativo, para un total de un año de datos.

enter image description here

Quiero ajustar un modelo que predice el diario de las transacciones, los gastos o ingresos, digamos que por un mes adicional.

Mi variable dependiente será el monto de la transacción; mis características de ser un conjunto de variables, en este ejemplo, sólo el día y el tipo de transacción.

Me quieren encajar un ingenuo de regresión lineal.

Ahora vamos a imaginar que mis datos se parecía a:

enter image description here

una. Puedo ver un claro (positivo) de valores atípicos en los datos. Mi regresión será extremadamente sensibles a ese punto de datos. Si la cantidad de la variable habría sido positivo, me habría tomado el registro. Qué hacer en este lugar?

b. Es allí cualquier enfoque distinto de regresión que podía relajarse por la presencia de valores atípicos? Dada la evidente estacionalidad de los datos, una serie de tiempo de enfoque sería más apropiado? Cualquier sugerencia?

Gracias

6voto

abraham Puntos 6

Sí, hay varios métodos que puede utilizar en el cual se puede mantener el valor atípico en el modelo (debido a que todavía puede decirle algo útil), pero el límite de su efecto en el lineal de los coeficientes de regresión.

Estos métodos se conocen como Regresión Robusta. Básicamente, estos métodos de pesos en lugar de las observaciones basadas en los residuos para reducir el efecto de los valores atípicos en su función de regresión.

1. Menos Absoluta de los Residuos (LAR)

También llamado mínimo de $L_{1}$ norma de regresión. Aquí usted desea minimizar $L_{1}$ encontrar tu coeficientes:

$L_1 = \sum | Y_{i} - (\beta_{0} + \beta_{1}X_{i1} + ... + \beta_{p-1}X_{i,p-1})|$

En R: LAD() en Quantreg paquete.

2. Menos de la Mediana de los Cuadrados (LMS)

Aquí usted desea reducir al mínimo la mediana de la desviación cuadrática:

la mediana{$[Y_{i} - (\beta_{0} + \beta_{1}X_{i1} + ... + \beta_{p-1}X_{i,p-1})]^{2}$}

En R: lmsreg(Y~X) en MASS paquete.

3. De forma iterativa Reponderadas de los mínimos Cuadrados (NIÑAS)

Aquí usted desea calcular los pesos de cada observación. Los dos métodos populares (a veces se combina el uso de Huber para la primera iteración y Bisquare para el resto de las iteraciones es común) son los Huber función peso ($w_{h}$) y la Bisquare función peso ($w_{b}$). Usted puede continuar con el proceso de cálculo de su modelo de regresión utilizando los pesos con varias iteraciones hasta que sus coeficientes convergen.

$w_{h} = 1$ si $|u| \leq 1.345$ o $w_{h} = 1.345 / |u|$ si $|u| > 1.345$

y

$w_{b} = [1 - (u \ 4.685)^{2}]^{2}$ si $|u| \leq 4.685$ o $w_{b} = 0$ si $|u| > 4.685$

donde, $u_{i} = e_{i} / MAD$ y $MAD = 1/.6745 \space median\{|e_{i} - median\{e_{i}\}|\}$

En R: rml(Y~X, method = ) donde method = mm es el Bisquare método y el valor predeterminado es de Huber.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X