La respuesta corta, en tres partes, es a) no, no se puede hacer una prueba emparejada, como se ha señalado en los comentarios, b) sí, se puede hacer una prueba no emparejada, y c) ese 10% de personas que no responden a la segunda prueba puede ser importante.
Consideremos un modelo jerárquico simplista de respuesta, donde hay una característica a nivel individual $\theta_i$ que tiene alguna distribución $f(\theta)$ y una respuesta específica a la prueba $y_{ij}$ para las pruebas $j \in {1,2}$ que depende de la característica a nivel individual a través de su distribución $p_j(y_{ij} | \theta_i)$ . Si sabemos $i$ para cada $y_{ij}$ obviamente podemos hacer la prueba pareada, y la diferencia entre $y_{i1}$ y $y_{i2}$ obviamente no están influenciados por las diferencias entre los $\theta_i$ ya que es para el mismo $i$ .
Si, por el contrario, no conocemos al individuo $i$ nos encontramos con extracciones de dos distribuciones $p^*_j(y_{ij}) = \int_\Theta p_j(y_{ij} | \theta_i) f(\theta_i)\text{d}\theta_i$ . Las puntuaciones $y_{ij}$ siguen siendo independientes a través de $i$ y, bajo la nula, independiente a través de $j$ también. La distribución en sí ya no varía entre $i$ . Bajo hipótesis alternativas, las distribuciones $p_j$ seguirá siendo diferente entre $j$ Es que son distribuciones a nivel de población y no a nivel individual.
Por lo tanto, todavía podemos realizar una prueba (no apareada) para las diferencias entre $j$ Pero va a ser menos potente que si pudieras deshacerte de la variabilidad extra introducida por no conocer a los individuos. Es sólo una cuestión de lo que puedes condicionar; un mayor condicionamiento reduce la variabilidad y, por tanto, aumenta la potencia.
Personalmente, utilizaría la versión no emparejada del Wilcoxon, ya que no se puede perder mucho en relación con la versión no emparejada del $t$ -prueba y puede que ganes mucho. Ver esta pregunta para obtener un poco más de información.
Lo más preocupante es que falta un 10% de la muestra original. Es necesario entender el mecanismo de los datos que faltan, si es que hay alguno. Considere la posibilidad de que los 10 que abandonaron estuvieran entre los de peor rendimiento en la prueba original, y que la cantidad de mejora estuviera fuertemente relacionada de forma negativa con lo bien que un individuo se desempeñó en la primera prueba (es decir, los de mal rendimiento mejoraron mucho más en promedio que los de buen rendimiento). Esto, combinado con los efectos de la regresión a la media, significa que probablemente se perderían datos sobre algunas de las mayores ganancias, lo que a) debilitaría la capacidad de detectar una diferencia significativa y b) sesgaría a la baja la estimación de la mejora. Por otro lado, según la hipótesis nula, esperamos ver una ganancia, porque incluimos a los alumnos con baja puntuación en la muestra 1, pero eliminamos a 10 posibles alumnos con baja puntuación de la muestra 2. Así que también hay un sesgo al alza. No está claro qué efecto domina, pero lo que sí está claro es que su prueba y las estimaciones asociadas estarían casi con toda seguridad sesgadas.
Por ejemplo, si simulo a partir del modelo simple anterior suponiendo $\theta_i \sim \text{N}(0,1)$ y $y_{ij} \sim \text{N}(\theta_i,1)$ y dejar caer el $y_{i2}$ para lo cual $y_{i1}$ estaba en los 10 valores más bajos, el valor esperado de $y_{i2} \approx 0.136$ mientras que la de $y_{i1} = 0$ . 0,136 es aproximadamente 0,96 desviaciones estándar por encima de 0, en relación con la desviación estándar de la diferencia entre las medias de $y_{i1}$ y $y_{i2}$ lo que obviamente tendría un gran impacto en sus probabilidades de error tipo I y tipo II.
e2 <- rep(0,100000)
for (i in 1:100000) {
theta <- rnorm(100)
y1 <- rnorm(100, theta)
y2 <- rnorm(100, theta)
y2[order(y1)[1:10]] <- NA
e2[i] <- mean(y2, na.rm=TRUE)
}
mean(e2)
[1] 0.1360364