1 votos

¿Cómo se puede determinar la importancia de un cuestionario "Sí/No"?

Soy muy nuevo en la estadística y necesito determinar si el cambio en un conjunto de datos es significativo.

Recogí datos de tres grupos de personas (clases de primer, tercer y quinto semestre de la universidad), en los que los participantes respondieron si consumían o no determinadas sustancias. Tengo que comprobar si el semestre de licenciatura tiene correlación con el uso de esas sustancias.

Lo he observado:

  1. El 35% de los estudiantes del primer semestre consumen esas sustancias
  2. 8,7% para los estudiantes del tercer semestre
  3. 0% para los estudiantes del quinto semestre.

Espero haber podido aclarar el objetivo ya que no conozco el vocabulario científico adecuado. ¿Cómo puedo determinar la significación en este caso?

EDIT: Tengo los conjuntos de datos en una hoja de cálculo de Google (a partir de Google Forms) y sé utilizar fórmulas básicas de hoja de cálculo.

2voto

whizcreed Puntos 101

Básicamente, hay que comprobar si las distribuciones sí/no (también llamadas distribuciones Bernoulli) de los tres semestres de la licenciatura son significativamente diferentes entre sí.

Intuitivamente, hay que comprobar si los gráficos de barras que ilustran las frecuencias de aparición de s y no s para los tres casos son lo suficientemente diferentes dado el tamaño de la muestra que tienes. Si los datos de su encuesta son amplios y los tres gráficos de barras siguen siendo muy diferentes, entonces puede estar seguro de que existe una correlación entre el consumo de sustancias y el semestre. Por el contrario, si las distribuciones verdaderas (pero desconocidas) son notablemente diferentes entre sí, pero el tamaño de su muestra es pequeño, entonces aún no puede descartar la hipótesis nula de que ambas sean iguales.

Ahora, en el lado más riguroso hay una plétora de métodos para comprobar este tipo de significación, siendo el más destacado posiblemente la prueba de chi-cuadrado (de dos muestras)

https://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/chi2samp.htm

Sin embargo, como en su caso tiene tres pruebas de este tipo (1º frente a 3º, 1º frente a 5º y 3º frente a 5º semestre), debe ajustar su nivel de significación en consecuencia, teniendo en cuenta lo que se denomina el problema de las comparaciones múltiples. La forma más fácil de resolverlo y que debería funcionar aquí es la corrección de Bonferroni, que consiste en dividir el nivel de significación elegido por el número de pruebas que se realizan. Así, por ejemplo, si se ha acordado un nivel de significación del 5% para una sola prueba, se debería utilizar $5/3$ % para cada una de las tres pruebas que realice.

Así que, en pocas palabras, esta es mi sugerencia:

  • Opte por la prueba de chi-cuadrado (de dos muestras)
  • elegir un nivel de significación $\alpha$ como lo haría para cualquier otra prueba de hipótesis
  • realizar una prueba de chi-cuadrado para las tres combinaciones de semestres cada una, es decir, 1º frente a 3º, 1º frente a 5º y 3º frente a 5º, utilizando $\alpha/3$ como nivel de significación para cada prueba
  • Si el resultado de CUALQUIERA de las tres pruebas es significativo, entonces se puede inferir una dependencia estadísticamente significativa entre el consumo de sustancias y el semestre

Espero que esto ayude...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X