2 votos

Medir la relación/asociación entre el resultado y las variables independientes

Estoy ejecutando un modelo (regresión logística) con 20 variables independientes en R.

Antes de ejecutar el modelo, calculé la correlación entre todas las variables y finalmente seleccioné mis variables comprobando también "visualmente" los histogramas de cada variable en el caso de la presencia y de nuevo en el caso de la ausencia. En las situaciones en las que no veo ninguna distribución obvia asociada tanto a la presencia como a la ausencia, descarto la variable.

Me gustaría hacer cálculos "oficiales" del nivel de relación entre Presencia/Absencia y cada variable (cuánto contribuye cada variable a la Presencia/Absencia), por ejemplo con Cramer's V index , pero la función disponible que encuentro es la del paquete vcd y tiene algunas limitaciones: no da la Cramer's V (así como el Coeficiente de Contingencia Phi) para cada variable independiente, y no se ejecuta para una variable independiente.

Puede que me falte alguna otra forma obvia de hacerlo. Se agradece cualquier ayuda.

2voto

Timo Geusch Puntos 16952

Dado que su resultado parece ser de naturaleza dicotómica (ausencia o presencia) y tiene numerosos predictores de interés, ¿por qué no calcular las odds ratio no ajustadas realizando una regresión logística simple entre cada una de sus potenciales variables predictoras de interés con el resultado (1 = ausencia; 0 = presencia, o viceversa)? Si el tamaño de la muestra lo permite (los amplios intervalos de confianza pueden disuadirle de hacer esto basándose en el tamaño de la muestra si es demasiado pequeño), podría poner todas las posibles variables predictoras de interés en una regresión logística multivariable y evaluar las odds ratios ajustadas para cada uno de sus predictores en relación con su resultado después de controlar todas las demás variables predictoras incluidas en su modelo. Espero que esto sea de ayuda.

0voto

Vincent Puntos 1064

El problema parece impar. En cuanto a la "Presencia/Absencia y cada variable", si esa variable simplemente se elimina (o se añade), otras variables pueden asumir la responsabilidad (o perder) de ajustarse al efecto de esa variable. Esto puede cambiar el sentido del modelo.

Si este resultado/efecto no es el que se desea, la "importancia de la variable" calculada mediante la aleatorización de esa columna de variables es una buena forma de hacerlo, para evitar que la otra variable se lleve la significación.

Si este resultado/efecto es exactamente lo que quiere tener, la manera de hacerlo es simplemente eliminando y añadiendo la variable a su modelo completo. Pero normalmente, ajustar un modelo y luego realizar una selección hacia adelante o hacia atrás es la forma oficial como selección de variables.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X