5 votos

Prueba estadística para analizar datos de prueba de práctica

Un problema que he estado jugando un poco con:

Empresa Una ayuda a un grupo de estudiantes a prepararse para una prueba estandarizada. Una puntuación perfecta en la prueba es de 100, pero más de la Empresa a la que reciben los estudiantes de las puntuaciones entre el 60 y el 90. Para ayudar a sus estudiantes a prepararse para tomar la verdadera prueba estandarizada, la Empresa ofrece una serie de 10 pruebas de la práctica de los fines de semana consecutivos.

La compañía de Una le gustaría evaluar si alguna de las pruebas en su práctica de la línea de prueba (algunos de los cuales han sido creados por la propia empresa) son, en promedio, demasiado difícil o demasiado fácil. La empresa a tiene Un conjunto de datos que consta de cientos de estudiantes, todos los cuales han tomado la serie completa y que, finalmente, tomar la prueba real. Desde la Empresa Una ayuda a los estudiantes a prepararse para la prueba, se espera que, dado pruebas de igualdad de dificultad, la capacidad de los estudiantes mejorarán en los más de 10 pruebas. La empresa no desea asumir que la mejora es necesariamente lineal.

Aquí están mis preguntas:

  1. ¿Qué procedimiento de muestreo debe el uso de la empresa? De la empresa a quiere muestra como pocos estudiantes como sea posible debido a que el acceso a los datos antiguos se intensivos en el tiempo.

  2. ¿Qué pruebas estadísticas, si la empresa se aplican a los datos para ver si existe una diferencia estadísticamente significativa en la dificultad entre las pruebas?

  3. ¿Cómo debe la Empresa Una cuenta por el hecho de que esperan que las calificaciones de los estudiantes para mejorar de forma natural en el transcurso de los 10 pruebas?

(Este es un poco oculto versión de un problema que me encontré en el trabajo, y parecía un complicado problema estadístico. Pero tal vez es solo que no estoy familiarizado con las herramientas necesarias.)

6voto

Peter Puntos 1

Me gustaría examinar la práctica de las pruebas utilizando un análisis de Rasch método, para determinar cómo los elementos en cada una de las 10 pruebas de la práctica de la línea de toda la gama de niveles de dificultad. Para ello, me gustaría tener las puntuaciones de alrededor de 30 a 50 estudiantes en cada prueba, asegurando que esta fue la primera prueba de que los estudiantes habían emprendido. Me gustaría examinar, a continuación, el elemento de calificaciones y las puntuaciones de los estudiantes, por separado para cada prueba de la práctica, para determinar cómo los elementos se realiza en cada prueba. Un análisis de Rasch, por ejemplo, a ver si los elementos son generalmente demasiado fácil o demasiado difícil.

Para realizar este análisis, usted tendrá que asegurarse de que su subgrupo de sujetos incorpora un conjunto de habilidades que la prueba está midiendo: no asegurarse de que la puntuación de la prueba se basan en un rango de habilidades es mucho peor para este método de no tener un gran tamaño de la muestra.

Usted necesita software especial para ello. Hay varias opciones en el mercado. Esto responde a tus preguntas 1 y 2.

Con respecto a la pregunta 3, se puede hacer de medidas repetidas de la prueba de que el tema de las puntuaciones, una vez que ellos obtuvo mediante análisis de Rasch. Usted necesitará un contrapeso de la prueba el orden de la presentación, de modo que la prueba de pedido no confundir los resultados. Una simple comparación del total de calificaciones de la prueba debe ser suficiente. Pero usted no será capaz de hacer esto con precisión hasta que se hayan corregido las pruebas de la práctica para la dificultad, como la necesidad de formas alternativas de la prueba de la práctica, y puede que no tenga que todavía. Dependiendo de cómo diferentes de la práctica de las pruebas, de contrapeso, puede ser insuficiente para superar este efecto.

4voto

LachlanG Puntos 133

¿Qué procedimiento de muestreo debe el uso de la empresa? De la empresa a quiere muestra como pocos estudiantes como sea posible debido a que el acceso a los datos antiguos es el tiempo intensivo.

Usted necesitará hacer un análisis para determinar el número de estudiantes que deben ser muestreados para evaluar adecuadamente la significación estadística.

¿Qué pruebas estadísticas, si la empresa se aplican a los datos para ver si existe una diferencia estadísticamente significativa en la dificultad entre las pruebas?

Puede configurar todo este análisis de medidas repetidas ANOVA. Pruebas de un efecto de interacción entre los estudiantes en la prueba de exposición (uno de sus factores será la prueba de exposición número), debe dirigirse a este.

¿Cómo debe la Empresa Una cuenta por el hecho de que ellos esperan de los estudiantes las puntuaciones para mejorar de forma natural en el transcurso de los 10 pruebas?

Estoy claro si esta preocupación es en relación a [2], o a otra comparación estadística de interés. Tomando medidas repetidas enfoque se cuenta para ello en el modelo.

1voto

ComputerJy Puntos 130

1) Hacer un análisis del poder averiguar cuántos de los estudiantes son necesarios para encontrar el efecto deseado tamaño.

2) damos cuenta de que está haciendo 10 pruebas diferentes, de modo que tiene en cuenta para el inflado de error de tipo I (Falso Descubrimiento de Fecha), y una simple, dicen alfa de 0,05 por prueba no es una buena elección.

Pregunta para el punto 1 y 2 preguntarse a sí mismo: es lo más importante para encontrar una prueba de que si funciona (el poder), o es más importante para evitar contraer falsos positivos? Probablemente, usted debe encontrar un equilibrio adecuado.

3) Usted podría hacer simples pruebas t entre (siendo t el tiempo). t1 y t2, t2 y t3 y así sucesivamente.

El problema es que, si he entendido correctamente la situación, los efectos encontrados podrían también se originan a partir de la prueba antes de la prueba se midió. Que es: cuando se prueba si t4 es mejor que la "línea de base" t3, podría ser que hay un efecto de la t1 o t2 causando t4 a ser mayor.

Tal vez una buena y fácil manera de averiguar cuál es la prueba que parecía haber ayudado, es la gráfica de todas las calificaciones de la prueba juntos. Es decir, en el eje X de las diferentes pruebas (test1,test2 test3), y en el eje Y el promedio de las puntuaciones. Usted debe ver una tendencia al alza (como predecir), pero en la media hora se puede ver si hay pruebas de que funcionan mejor de lo esperado. Si se agrega una línea de regresión lineal, a continuación, puede ver fácilmente que las puntuaciones están por encima de él. También puede ver si hay algo "no-lineal" de la relación en el sentido de que la primera de las 3 pruebas podría ser grande, el próximo 3 de malo, mientras que los últimos son mejores de nuevo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X