Tengo un conocimiento básico de estadística básica, pero creo que me he metido de mi profundidad.
Tengo un conjunto de datos con una variable dependiente (lapso de tiempo) y tres cuantitativa de las variables independientes. También hay un cualitativos de la variable independiente (un tipo de bandera), pero creo que se puede cuantificar si debo. El carácter cuantitativo de las variables independientes a todos parece ser inversamente proporcional a la variable dependiente.
Quiero ver si me pueden determinar cuál de estas variables independientes tiene la mayor influencia sobre la dependiente. Corrí todos los datos a través de pruebas de regresión utilizando statsmodels
para Python (mínimos cuadrados ordinarios) pero me da advertencias que indican la multicolinealidad y $R^2 = 0.002$. También he intentado de regresión lineal univariante de cada una independiente, pero no estoy recibiendo algo que se ve utilizable.
Por último, también tengo este problema de la cualitativa independiente.
De nuevo, realmente me gustaría saber cómo estas independientes trabajan juntos para influir en la dependiente, y también me gustaría saber los grados de influencia que tuvieron, pero claro que estoy perdido en cuanto a la metodología.
EDITAR
Advertencias:
1 La condición de número es grande, 5.65 e+06. Esto podría indicar que hay fuerte multicolinealidad u otros problemas numéricos.
Captura de pantalla de la salida completa de .fit().summary()
Perfil De Datos:
También debo señalar que dos de estas variables independientes (maxtransfersize
y buffercount
) se repite para cada combinación de stripes
y diskconfig
(<- esta es la variable cualitativa, y creo que tengo una manera de cuantificar que ahora). backup_time_ms
es la variable dependiente.