2 votos

Cuando se comparan los grupos -significativamente diferentes. Regresión logística: baja predictibilidad ¿Por qué?

Creo que la pregunta es más bien teórica. Estoy haciendo algunas pruebas en dos grupos Grupo A (tamaño de la muestra 500) /Grupo B (tamaño de la muestra 500) que son relación continua. Ambos son distribuciones sesgadas por lo que estoy ejecutando una prueba de rangos con signo de Wilcoxon. Estoy obteniendo resultados significativos entre los dos (Z=26.928, pval=2.2e-16) y un gran tamaño del efecto (r= z/sqrt(N)=0.94).

A continuación quería ver si puedo predecir el Grupo A o el B basándome en sus datos. Realicé una regresión logística para esto y encontré una tasa de predicción del 63% para el entrenamiento (un poco más baja para la prueba- 59%), que en realidad estoy contento porque no quiero que sean predecibles, pero esa es otra historia.

Mi pregunta es si los grupos son tan diferentes, ¿por qué la predicción es tan baja? Me doy cuenta de que ser diferente y ser capaz de predecir son dos cosas diferentes. Quiero estar seguro de que mi técnica está bien y, si lo está, entender por qué los grupos pueden ser tan diferentes, pero esas diferencias no pueden predecir el grupo.

0 votos

Parece que sus dos grupos son temas distintos. Si es así, debería utilizar una prueba de Wilcoxon para grupos independientes, no una prueba de rangos con signo de Wilcoxon, que es para mediciones emparejadas o dos mediciones realizadas en los mismos sujetos.

0 votos

Gracias. He cambiado la prueba, pero en general sigo obteniendo resultados similares que no puedo explicar.

0voto

Tienes una gran muestra que es bastante potente.

La prueba de Wilcoxon es una prueba para comprobar si la distribución acumulativa del grupo A está a la izquierda (o a la derecha) del grupo B. Cuando las distribuciones son simétricas, como en la gaussiana o la logística, también es una prueba de la igualdad de los parámetros de localización de la distribución.

Puede haber una clara distinción en las dos distribuciones, pero también un considerable solapamiento entre ellas. En ese caso, la discriminación entre ellas, la previsibilidad en cada valor, es más difícil incluso con muestras grandes.

Parece que las dos muestras están bastante cerca, pero todavía se pueden distinguir cuando se comprueba la diferencia con una muestra grande.

Algunos datos son así.

0 votos

Gracias, David. Tus comentarios son útiles. Una cosa que hice fue calcular mal el tamaño del efecto. Estaba dividiendo por sqrt(N/2) en lugar de sqrt(N), por lo que mi tamaño del efecto es ahora de 0,40, lo que tiene mucho más sentido que el 0,94 que obtuve originalmente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X