4 votos

Tengo mi conjunto de datos, ¿ahora qué?

Tengo un conocimiento básico de estadística básica, pero creo que me he metido de mi profundidad.

Tengo un conjunto de datos con una variable dependiente (lapso de tiempo) y tres cuantitativa de las variables independientes. También hay un cualitativos de la variable independiente (un tipo de bandera), pero creo que se puede cuantificar si debo. El carácter cuantitativo de las variables independientes a todos parece ser inversamente proporcional a la variable dependiente.

Quiero ver si me pueden determinar cuál de estas variables independientes tiene la mayor influencia sobre la dependiente. Corrí todos los datos a través de pruebas de regresión utilizando statsmodels para Python (mínimos cuadrados ordinarios) pero me da advertencias que indican la multicolinealidad y $R^2 = 0.002$. También he intentado de regresión lineal univariante de cada una independiente, pero no estoy recibiendo algo que se ve utilizable.

Por último, también tengo este problema de la cualitativa independiente.

De nuevo, realmente me gustaría saber cómo estas independientes trabajan juntos para influir en la dependiente, y también me gustaría saber los grados de influencia que tuvieron, pero claro que estoy perdido en cuanto a la metodología.

EDITAR

Advertencias:

1 La condición de número es grande, 5.65 e+06. Esto podría indicar que hay fuerte multicolinealidad u otros problemas numéricos.

Captura de pantalla de la salida completa de .fit().summary()

summary

Perfil De Datos:

enter image description here

También debo señalar que dos de estas variables independientes (maxtransfersize y buffercount) se repite para cada combinación de stripes y diskconfig (<- esta es la variable cualitativa, y creo que tengo una manera de cuantificar que ahora). backup_time_ms es la variable dependiente.

3voto

FractalizeR Puntos 879

El problema que se está ejecutando en el multi-colinealidad en la matriz de entrada para su regresión. la matriz mal condicionada", lo que significa que pequeños errores en la entrada de conducir a grandes errores en la salida de la señal. El cálculo de la condición de una matriz a es $\frac{\lambda_{max}}{\lambda_{min}}$ (que podría ser simétrico matricies), o la relación de la mayor a la menor autovalor de la matriz.. creo que la fórmula general es $||A|| ||A^{-1}||$ de La normal de ecuaciones (la ecuación que se utiliza para resolver las betas de la regresión) se $\beta = (A^TA)^{-1}Ay$. Así como usted puede ver, si usted tiene una matriz con una gran condición de número (que su programa es el que te dice que hacer), se convierte en la peor de las ecuaciones normales, ya que, básicamente, multiplicar la matriz juntos tres veces. Este problema (el multi-colinealidad) es lo que está causando su $R^2$ y su betas para tener "mal estado" de los valores. (recuerde que los pequeños errores en las entradas de conducir a grandes errores en la salida). Ahora, ¿qué se puede hacer acerca de esto? Este gran condición de número aparece también en muy alta de datos dimensional. Para usted, parece ser que viene de el hecho de que las variables predictoras están fuertemente relacionados. ¿Qué se puede hacer acerca de esto?

(1) Usted puede averiguar cuál de las variables es la causa del problema y eliminarlo de la modelo.

(2) Se puede considerar métodos como la regresión ridge.

¿Qué cresta de regresión hacer? Que añadir una pequeña perturbación de su matriz ($\lambda I)$ donde $\lambda$ es la perturbación, y la I es una matriz identidad (matriz con ceros en todas partes, pero en la diagonal). Esto reduce el problema con multi-colinealidad, pero a costa de añadir un cierto sesgo hacia el modelo. Te sugiero la lectura de arriba en la cresta de regresión o lazo justo antes de entrar en el coche. Siempre he encontrado "los Elementos de La Estadística de Aprendizaje" para ser una buena referencia. Es libre como un pdf en línea. La buena suerte.

1voto

sd2k9 Puntos 21

Hay mucho que comentar aquí. No está seguro de cuál es la más útil.

(0) I've also tried univariate linear regression of each independent but am not getting something that looks usable Si no hay una fuerte asociación estadística no resolver eso. Análisis exploratorio de datos con gráficos puede ser útil aquí.
(1) dependent variable (time span) de Tiempo de las variables: estos puede ser complicado. Ellos a menudo no están distribuidos normalmente. Es posible que desee examinar esta hipótesis
(2) quantitative qualitative independent variable Esto no es útil en la terminología. Continua o categórica. Y si usted piensa que no hay una relación lineal para las variables continuas (como se descubrió en el análisis exploratorio), cómo va a acomodar a que sería un mejor comienzo
(3) X2 y X3 parecen estar correlacionados basado en la regresión. Son ellos? Análisis exploratorio con X2 vs X3 complot sería útil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X