Tengo problemas para elegir un método de evaluación estadística adecuado para mis datos experimentales.
Un número de participantes fiables realiza una tarea de categorización binaria sobre n frases. Para cada punto de datos termino con $x$ "0" votos, y $(n-x)$ "1" votos. Ahora necesito una medida que me ayude a decidir cuándo es apropiado asignar la categoría "1" a una frase, incluso si $x>0$ .
Veo varios enfoques posibles:
- frecuentista: acepta la categoría si la proporción de valoraciones "1" es mayor que un determinado umbral (por ejemplo, 50%)
- prueba de significación para una sola proporción: aceptar la categoría "1" cuando su proporción es significativamente superior a un determinado umbral (por ejemplo $H_0: P(0) <= 0.5$ y $p<0.05$ )
- acuerdo entre evaluadores: aceptar la categoría "1" si el acuerdo es mayor que un determinado umbral (por ejemplo, el cappa de Fleiss $\kappa>0.6$ )
Desgraciadamente soy bastante ingenuo en estos temas, así que no estoy seguro de cómo elegir lo más adecuado para la tarea en cuestión.
/Edición -- Aquí están los detalles solicitados:
Estoy en la fase de planificación de un experimento científico. Tendré participantes ( $n=10$ o tal vez $20$ ) clasifican las frases como si tuvieran o no una determinada propiedad. La tabla de datos podría ser algo así: id|p1|p2|...|pn 1 |0 | 1|...|1 2 |1 | 1|...|1
con id como identificación de la frase y pn como número de participante. Quiero saber cuándo es apropiado asumir que la frase $i$ tiene la propiedad que busco, cuando no hay pleno acuerdo entre los participantes. Por ejemplo, para $id=4$ Observo las siguientes calificaciones: $0,0,1,1,1,1,0,0,1,1$ .