1 votos

prueba estadística para una variable cuantitativa y otra categórica

Soy nuevo en estadística y estoy probando con conjuntos de datos aleatorios, un análisis que estoy haciendo es tratar de encontrar si hay una relación entre dos variables, la duración y el éxito donde la duración es variable numérica continua y la otra, el éxito es categórica.

La distribución de la variable duración no es normal, por lo que creo que estoy haciendo una prueba no paramétrica, ¿qué opinas?

  • Tamaño del conjunto de datos: 45957 para ambas variables

Dada la distribución de la columna "duración", tengo esta figura: Duration distrubition

Ahora quiero analizar cual es la mejor duración/longitud de tiempo para tener una campaña exitosa, visualizo la duración con todos los tipos de estado:

duration w/ status

Con la relación anterior, no hay conclusión aparente, por lo que asumo que el éxito, es el éxito y el resto de las categorías son el fracaso, tengo esta viz duration w/ match

Ahora, quiero estar seguro, quiero realizar una prueba para llegar a una determinada conclusión.

Nunca he realizado una prueba estadística en la vida real, así que no sé qué hacer y cómo proceder en la práctica.

1voto

manku Puntos 111

Supongamos que el grupo de fallos tiene valores de duración observados x1 y el grupo Success tiene valores x2 como muestra aleatoria en R a continuación:

set.seed(624)
x1 = rgamma(100, 4, .09)
x2 = rgamma(100, 4, .12)
x = c(x1, x2);  g=rep(1:2, each=100)
boxplot(x ~ g, col="skyblue2", pch=19, horizontal=T)

enter image description here

Entonces una prueba de suma de rangos de Wilcoxon de dos muestras rechaza la hipótesis nula de que no hay diferencia en las ubicaciones de las puntuaciones de duración para los dos grupos, con un valor P de 0,0023.

wilcox.test(x~g)

        Wilcoxon rank sum test 
        with continuity correction

data:  x by g
W = 6247, p-value = 0.002322
alternative hypothesis: 
   true location shift is not equal to 0

Nota: No dices cuál es el tamaño de tus muestras. Con $n_1, n_2$ tan grande como 100, las medias de las muestras de los grupos podrían ser casi normales. En ese caso una prueba t de Welch de dos muestras sería apropiada, pero no querría querría hacer una prueba t para datos tan sesgados si los tamaños de las muestras son moderados, digamos de 20 a 40.

El valor P de la prueba de Welch también es de aproximadamente 0,002, pero no hay pero no hay razón para esperar que las pruebas Wilcoxon y t de dos muestras tengan generalmente valores P que coincidan tanto. Por lo tanto, debe decidir de antemano decidir de antemano qué prueba utilizar. (No es "justo" probar varias pruebas y luego elegir la que tenga el menor valor P).

t.test(x~g)$p.val
[1] 0.002118171

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X