Tengo problemas para elegir un método de evaluación estadística adecuado para mis datos experimentales.
Un número de participantes fiables realiza una tarea de categorización binaria sobre n frases. Para cada punto de datos termino con xx "0" votos, y (n−x)(n−x) "1" votos. Ahora necesito una medida que me ayude a decidir cuándo es apropiado asignar la categoría "1" a una frase, incluso si x>0x>0 .
Veo varios enfoques posibles:
- frecuentista: acepta la categoría si la proporción de valoraciones "1" es mayor que un determinado umbral (por ejemplo, 50%)
- prueba de significación para una sola proporción: aceptar la categoría "1" cuando su proporción es significativamente superior a un determinado umbral (por ejemplo H0:P(0)<=0.5H0:P(0)<=0.5 y p<0.05p<0.05 )
- acuerdo entre evaluadores: aceptar la categoría "1" si el acuerdo es mayor que un determinado umbral (por ejemplo, el cappa de Fleiss κ>0.6κ>0.6 )
Desgraciadamente soy bastante ingenuo en estos temas, así que no estoy seguro de cómo elegir lo más adecuado para la tarea en cuestión.
/Edición -- Aquí están los detalles solicitados:
Estoy en la fase de planificación de un experimento científico. Tendré participantes ( n=10n=10 o tal vez 2020 ) clasifican las frases como si tuvieran o no una determinada propiedad. La tabla de datos podría ser algo así: id|p1|p2|...|pn 1 |0 | 1|...|1 2 |1 | 1|...|1
con id como identificación de la frase y pn como número de participante. Quiero saber cuándo es apropiado asumir que la frase ii tiene la propiedad que busco, cuando no hay pleno acuerdo entre los participantes. Por ejemplo, para id=4id=4 Observo las siguientes calificaciones: 0,0,1,1,1,1,0,0,1,10,0,1,1,1,1,0,0,1,1 .