Tengo dos grandes conjuntos de datos, de hecho, uno de ellos es incluso mucho más grande que el otro.
Visualmente, no parece haber mucha diferencia entre ellos:
Los datos reales subyacentes al gráfico de caja no se distribuyen normalmente y no se normalizan bien con las transformaciones. Son más o menos la misma distribución (es decir, las distribuciones del SÍ y del NO para cada algoritmo), pero las grandes diferencias de tamaño de los datos hacen que otras pruebas sean un poco inútiles. He aplicado la prueba de Kolmogorov-Smirnov de dos muestras, aunque probablemente sea errónea y dé resultados muy significativos.
Mis preguntas son:
1) ¿Producen las pruebas estadísticas sobre grandes conjuntos de datos resultados significativos, incluso si existen pequeñas diferencias entre las dos muestras? La "ligereza" se ve magnificada por los enormes puntos de datos.
2) ¿Es mejor la inspección visual con grandes conjuntos de datos en lugar de aplicar pruebas no paramétricas y paramétricas en las que se pueden violar ciertos supuestos subyacentes?
3) Para estos datos, ¿cuál es la mejor forma de actuar?
Editar
Mis datos tienen una estructura como :
Mis datos son de la forma
Name Bind miRNA
a 300 NO
b 500 YES
c 140 YES
d 2345 NO