El valor p al que se refiere es el resultado de la prueba de rangos logarítmicos o posiblemente el Wilcoxon. Esta prueba compara los fallos esperados con los observados en cada momento de fallo tanto en el brazo de tratamiento como en el de control. Es una prueba de la distribución completa de los tiempos de fallo, no sólo de la mediana. La hipótesis nula de la prueba de log-rank para datos de supervivencia censurados es que el cociente de riesgos promediado en el tiempo para el fracaso comparando los brazos de tratamiento y control es 1.
Cabe mencionar que la potencia de esta prueba no depende del número de individuos en riesgo en los distintos brazos o estratos de tratamiento, sino del número de fallos observados. Por lo tanto, incluso si se duplica el tamaño de la muestra en un estrato, si muchos son censurados antes de que se observe un fracaso, no es extraño ver una mayor potencia en el otro estrato, incluso si las curvas de KM parecen idénticas, debido a un mayor número de fracasos.
Si rechazamos la hipótesis nula y descubrimos que el subgrupo 2 tiene una diferencia significativa en la supervivencia al comparar el tratamiento con el control, pero el subgrupo 1 no tiene tal diferencia, entonces hay pruebas de modificación del efecto del tratamiento por el subgrupo. Eso sugiere que hay una diferencia en la supervivencia entre los del subgrupo 2 pero no en el subgrupo 1. Como análisis de sensibilidad, sería útil mostrar las curvas de Kaplan Meier y posiblemente una estimación suavizada de la hazard ratio en función del tiempo. Mi conjetura es que, mientras que la supervivencia puede ser comparable en la mediana, es la secuencia de eventos en el primer cuartil de los tiempos de fracaso que impulsa gran parte de la inferencia y se ve una rápida caída en la supervivencia en uno de los brazos de tratamiento para el subgrupo 2.