Básicamente, hay que comprobar si las distribuciones sí/no (también llamadas distribuciones Bernoulli) de los tres semestres de la licenciatura son significativamente diferentes entre sí.
Intuitivamente, hay que comprobar si los gráficos de barras que ilustran las frecuencias de aparición de sí s y no s para los tres casos son lo suficientemente diferentes dado el tamaño de la muestra que tienes. Si los datos de su encuesta son amplios y los tres gráficos de barras siguen siendo muy diferentes, entonces puede estar seguro de que existe una correlación entre el consumo de sustancias y el semestre. Por el contrario, si las distribuciones verdaderas (pero desconocidas) son notablemente diferentes entre sí, pero el tamaño de su muestra es pequeño, entonces aún no puede descartar la hipótesis nula de que ambas sean iguales.
Ahora, en el lado más riguroso hay una plétora de métodos para comprobar este tipo de significación, siendo el más destacado posiblemente la prueba de chi-cuadrado (de dos muestras)
https://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/chi2samp.htm
Sin embargo, como en su caso tiene tres pruebas de este tipo (1º frente a 3º, 1º frente a 5º y 3º frente a 5º semestre), debe ajustar su nivel de significación en consecuencia, teniendo en cuenta lo que se denomina el problema de las comparaciones múltiples. La forma más fácil de resolverlo y que debería funcionar aquí es la corrección de Bonferroni, que consiste en dividir el nivel de significación elegido por el número de pruebas que se realizan. Así, por ejemplo, si se ha acordado un nivel de significación del 5% para una sola prueba, se debería utilizar $5/3$ % para cada una de las tres pruebas que realice.
Así que, en pocas palabras, esta es mi sugerencia:
- Opte por la prueba de chi-cuadrado (de dos muestras)
- elegir un nivel de significación $\alpha$ como lo haría para cualquier otra prueba de hipótesis
- realizar una prueba de chi-cuadrado para las tres combinaciones de semestres cada una, es decir, 1º frente a 3º, 1º frente a 5º y 3º frente a 5º, utilizando $\alpha/3$ como nivel de significación para cada prueba
- Si el resultado de CUALQUIERA de las tres pruebas es significativo, entonces se puede inferir una dependencia estadísticamente significativa entre el consumo de sustancias y el semestre
Espero que esto ayude...