Estoy tratando de determinar si los valores obtenidos por un cálculo de algoritmo son sistemáticamente diferentes de los valores de criterio.
Los valores de criterio se obtienen mediante observación manual con 3 jueces diferentes. Los valores obtenidos son los siguientes:
judge1_count = [1456 1430 1471 3024 3802 4334 3812 4140 1089 1860 2201 1107 1134];
judge2_count = [1458 1427 1473 3023 3835 4350 3791 4129 1090 1867 2212 1115 1147];
judge3_count = [1452 1441 1473 3030 3845 4360 3820 4160 1074 1863 2216 1119 1139];
Cada columna representa una muestra independiente diferente de la cual los 3 jueces dan un recuento
Primero pruebo la confiabilidad entre evaluadores calculando ICC(2,1) (efecto aleatorio de dos vías, modelo único), lo que me da un valor de ICC de aproximadamente 0,99, lo cual tiene sentido simplemente observando qué tan cerca están los conteos para cada muestra.
Luego introduzco los conteos del algoritmo:
algo_count = [1434 1422 1453 2973 3688 4061 3703 4072 1018 1837 2180 1090 1116]
Y una vez más aplico ICC(2,1), dándome un ICC de nuevo alrededor de 0,99. Sin embargo, cuando aplico una prueba t emparejada del conteo del algoritmo y el conteo del criterio (donde el conteo del criterio se promedia a través de los 3 jueces por muestra), la hipótesis nula es rechazada (p = 0,0078), y por observación se puede ver que los conteos del algoritmo son sistemáticamente más pequeños que los conteos del criterio, por lo que esto tiene sentido.
Entonces, mi pregunta es si estos resultados son lógicos, o si he pasado por alto algo en cuanto a cómo aplico los ICC. Esta es la primera vez que los uso, por lo que dudo si he utilizado esta función correctamente. Para referencia, repetí la tarea tanto en MATLAB como en R y obtuve los mismos valores de ICC.