12 votos

Correlación entre variable dicotómica y continua

Intento encontrar la correlación entre una variable dicotómica y una continua.

A partir de mi trabajo de campo sobre esto he descubierto que tengo que utilizar la prueba t independiente y la condición previa para ello es que la distribución de la variable tiene que ser normal.

He realizado la prueba de Kolmogorov-Smirnov para comprobar la normalidad y he descubierto que la variable continua no es normal y está sesgada (para unos 4.000 puntos de datos).

Hice la prueba de Kolmogorov-Smirnov para toda la gama de variables. ¿Debo dividirlas en grupos y hacer la prueba? Es decir, si tengo risk level ( 0 = No es arriesgado, 1 = Arriesgado) y los niveles de colesterol, entonces debería:

  • Divídelos en dos grupos, como

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
  • ¿Tomarlos juntos y aplicar la prueba? (Yo la he realizado sólo con el conjunto de datos completo).

Después, ¿qué prueba debo hacer si sigue sin ser normal?

EDITAR: El escenario anterior era sólo una descripción que intenté dar de mi problema. Tengo un conjunto de datos que contiene más de 1000 variables y unas 4000 muestras. Son de naturaleza continua o categórica. Mi tarea consiste en predecir una variable dicotómica basándome en estas variables (tal vez crear un modelo de regresión logística). Así que pensé que la investigación inicial consistiría en encontrar la correlación entre una variable dicotómica y una continua.

Estaba tratando de ver cómo es la distribución de las variables y por lo tanto trató de ir a la prueba t. Aquí me encontré con que la normalidad era un problema. La prueba de Kolmogorov-Smirnov dio un valor de significación de 0,00 en la mayoría de estas variables.

¿Debo asumir la normalidad? La asimetría y la curtosis de estas variables también muestran que los datos son asimétricos (>0) en casi todos los casos.

Según la nota que figura a continuación, investigaré más a fondo la correlación punto-biserial. Pero sobre la distribución de las variables todavía no estoy seguro.

15voto

Zizzencs Puntos 1358

Estoy un poco confuso; tu título dice "correlación" pero tu post se refiere a pruebas t. Una prueba t es una prueba de localización central; más concretamente, ¿es la media de un conjunto de datos diferente de la media de otro conjunto? La correlación, en cambio, muestra la relación entre dos variables. Hay una gran variedad de medidas de correlación, parece que la correlación punto-biserial es la adecuada en su caso.

Tiene razón en que una prueba t presupone normalidad; sin embargo, es probable que las pruebas de normalidad den resultados significativos incluso para no normalidades triviales con un N de 4000. Las pruebas t son bastante robustas a desviaciones modestas de la normalidad si las varianzas de los dos conjuntos de datos son aproximadamente iguales y los tamaños de las muestras aproximadamente iguales. Pero una prueba no paramétrica es más robusta a los valores atípicos y la mayoría de ellas tienen una potencia casi tan alta como la prueba t, incluso si las distribuciones son normales.

Sin embargo, en tu ejemplo, utilizas el "colesterol" como algo arriesgado o no arriesgado. Esto es casi con toda seguridad una mala idea. Dicotomizar una variable continua invoca el pensamiento mágico. Dice que, en algún momento, el colesterol pasa de "no arriesgado" a "arriesgado". Supongamos que utilizamos 200 como punto de corte: entonces estamos diciendo que alguien con un colesterol de 201 es igual que alguien con 400, y alguien con 199 es igual que alguien con 100. Esto no tiene sentido. Esto no tiene sentido.

6voto

pauly Puntos 932

Simplifiquemos las cosas. Con N = 4.000 para el nivel de colesterol, no debería tener problemas con que sus resultados estén sesgados por valores atípicos. Por lo tanto, puede utilizar la correlación propiamente dicha, como se desprende de su frase inicial. Habrá poca diferencia si evalúa la correlación mediante el método de Pearson, Spearman o Punto-Biserial.

Si por el contrario necesita expresar los resultados en términos de diferencia típica de colesterol entre los grupos de alto y bajo riesgo, puede utilizar la prueba U de Mann-Whitney, pero también puede utilizar la prueba más informativa t -prueba. Con esta N (y, de nuevo, con valores atípicos astronómicos, algo que sin duda puede descartar), no tiene que preocuparse de que la falta de normalidad comprometa sus resultados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X