Bueno, no estoy seguro de si alguien todavía la comprobación de esto (ya que es de hace un año), pero he aquí mi respuesta a su pregunta: "puedo seguir las definiciones, pero el artículo realmente no se explica por qué los cálculos deben ser diferentes en los distintos contextos. Es alguien capaz de dar una explicación?"
Los cálculos son diferentes debido a que el propósito de cada una de estas medidas. Voy a ir a través de ellos uno por uno. Para cada uno, vamos a considerar la posibilidad de tomar un examen. Sabemos que en la población general, la puntuación media de una cierta medida es igual a un valor específico (digamos 100, keep it simple). Hay una desviación estándar asociada (digamos, de 15 años, para mantener la coherencia con el gráfico) que describe cómo los datos se distribuyen alrededor de esa media. Así que si usted medir y graficar una población grande, usted debe obtener una curva centrado en 100 con una cierta propagación se define por la desviación estándar.
También vamos a definir algunos términos, para asegurarse de que estamos claros en lo que significa todo esto:
"La verdadera puntuación" - la muestra del verdadero valor de esta calificación (es decir, lo que una exacta máquina de escupir como un valor cuando se aplican a este ejemplo)
"Puntuación real" - una máquina real de salida cuando se aplica a una muestra
El Error estándar de Medición
Esto es básicamente una medida de cuán precisa es la máquina de puntuación. Si, por ejemplo, una muestra de la verdadera calificación fue de 90, perfectamente exacta de la máquina le dará una puntuación de 90 cada momento. La parte inferior de la fiabilidad de la máquina, sin embargo, la más variada serían las respuestas cuando se mide la muestra. Un poco exacta de la máquina podría dar decenas de 85, 87, 91, 90, 92 de cinco intentos. Una forma menos precisa de la máquina podría dar 93, 81, 96, 88, 89 de 5 intentos. Considere esto como una nueva curva basa en la medición de la misma persona a un montón de veces. Esa persona tiene una "verdadera calificación", pero el equipo va a crear una extensión de "los puntajes Reales". El menos fiable de la máquina, la dispersión de los puntajes.
Error estándar de la Estimación
Esta descripción es un poco confuso. Se dice que "El error estándar de la estimación es una estimación de la variabilidad de un candidato a la verdadera calificación, dada su puntuación real." Una verdadera calificación de no variar - se fija. Creo que lo que esta está tratando de decir es que si tienes un montón de gente con el mismo puntaje real, entonces esta medida constituiría una medida de la variabilidad de su verdadera puntuaciones. Aquí, el más fiable de la máquina, la menor variación entre las personas reales de las puntuaciones. Este es también (aunque contradictorio para muchas personas) true si la máquina de medición es muy poco fiable. Si la máquina es realmente poco fiable, que básicamente no tienen idea de dónde están esas personas que en realidad debería ser de puntuación, por lo que es probable que todos viene desde el centro de la verdadera distribución (que es donde la mayoría de la gente) y así no habrá tanta variación entre ellos.
Error estándar de la Predicción
El error estándar de la predicción puede ser representado de esta manera. Tome una medición de la muestra con su máquina. Digamos que le da un valor de 95. Entonces tú dices, "me atrevo a predecir que si puedo medir esta muestra de nuevo, voy a obtener una puntuación de x". Si la máquina es perfectamente fiable, usted puede decir que usted obtendrá una puntuación de 95. Pero el más fiable de la máquina, es menos probable que su predicción. Más a menudo, usted diría algo como "me atrevo a predecir que si puedo medir esta muestra de nuevo, voy a obtener una puntuación entre x e y". El menos fiable de la máquina, el rango más amplio que tiene que dar la confianza en su predicción. Es mayor porque, como dicen en un comentario anterior, tiene dos fuentes de la falta de fiabilidad - la medida inicial y la segunda (próximo) de medición.
Espero que su ayuda (y consigue visto!).