Intento encontrar la correlación entre una variable dicotómica y una continua.
A partir de mi trabajo de campo sobre esto he descubierto que tengo que utilizar la prueba t independiente y la condición previa para ello es que la distribución de la variable tiene que ser normal.
He realizado la prueba de Kolmogorov-Smirnov para comprobar la normalidad y he descubierto que la variable continua no es normal y está sesgada (para unos 4.000 puntos de datos).
Hice la prueba de Kolmogorov-Smirnov para toda la gama de variables. ¿Debo dividirlas en grupos y hacer la prueba? Es decir, si tengo risk level
( 0
= No es arriesgado, 1
= Arriesgado) y los niveles de colesterol, entonces debería:
-
Divídelos en dos grupos, como
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
-
¿Tomarlos juntos y aplicar la prueba? (Yo la he realizado sólo con el conjunto de datos completo).
Después, ¿qué prueba debo hacer si sigue sin ser normal?
EDITAR: El escenario anterior era sólo una descripción que intenté dar de mi problema. Tengo un conjunto de datos que contiene más de 1000 variables y unas 4000 muestras. Son de naturaleza continua o categórica. Mi tarea consiste en predecir una variable dicotómica basándome en estas variables (tal vez crear un modelo de regresión logística). Así que pensé que la investigación inicial consistiría en encontrar la correlación entre una variable dicotómica y una continua.
Estaba tratando de ver cómo es la distribución de las variables y por lo tanto trató de ir a la prueba t. Aquí me encontré con que la normalidad era un problema. La prueba de Kolmogorov-Smirnov dio un valor de significación de 0,00 en la mayoría de estas variables.
¿Debo asumir la normalidad? La asimetría y la curtosis de estas variables también muestran que los datos son asimétricos (>0) en casi todos los casos.
Según la nota que figura a continuación, investigaré más a fondo la correlación punto-biserial. Pero sobre la distribución de las variables todavía no estoy seguro.