Tengo datos de la distribución de la longitud del discurso (número de palabras por discurso) de un orador en una serie de televisión por episodio en mi tabla.
Por ejemplo:
Length Episode1 Episode2 Episode3 | Episode4 Episode5...
1 14 12 68 | 10 8
2 7 61 58 | 22 23
3 14 42 6 | 13 39
4 54 12 14 | 2 12
5 14 18 38 | 41 11
....
Quiero comparar un grupo de episodios, digamos en este ejemplo 1-3 con los episodios 4-5 y averiguar si hay una diferencia significativa en la forma en que el hablante habla después de una determinada pausa de la trama.
¿Qué tipo de prueba tengo que hacer para descubrir tal diferencia?
FYI: En particular, quiero ver si el personaje Raj utiliza un tipo diferente de hablar después de superar su mutismo selectivo después de la temporada 6 episodio 24 de la teoría del big bang.
EDIT: He probado con el Kullback Leibler en R como sugiere Hossein. No consigo que funcione con el vector normalizado:
> a
[1] 271 297 315 332 352 321 309 313 265 212 255 198 192 178 160 150 139 105 107 94 89 81 88 84 59 66 48 53 38 46 28 25 17 34 36 26 27 13 14 16 11 15 13 13 9 6 7 5 2 5 4 4 2 3 7 3 2 1
[59] 3 2 2 2 2 2 1 2 2 2
> b
[1] 46 49 52 51 54 63 59 58 43 33 40 32 42 34 21 27 24 22 17 18 13 10 20 18 8 9 8 9 8 7 6 5 1 7 8 9 6 2 2 3 2 3 1 1 2 1 2 1 1 2 0 0 1 0 1 0 2 1 1 0 0 0 2 0 1 0 0 0
> KL.plugin(normalize(a),normalize(b))
[1] Inf
Warnmeldung:
In KL.plugin(normalize(a), normalize(b)) :
Vanishing value(s) in argument freqs2!
> KL.shrink(a,b)
Estimating optimal shrinkage intensity lambda.freq (frequencies): 0.0069
Estimating optimal shrinkage intensity lambda.freq (frequencies): 0.0409
[1] 0.01888402
attr(,"lambda.freqs1")
[1] 0.006945795
attr(,"lambda.freqs2")
[1] 0.04085443
No creo que el resultado del KL deba ser Inf para mis dos vectores. ¿O es realmente la respuesta correcta?
¿Puede alguien explicarme qué hace exactamente KL.shrink del paquete entropía y cómo interpretar los 3 valores resultantes?
0 votos
No entiendo la pregunta. ¿Quieres comparar (10,8) contra (13,39)?
0 votos
Aquí cada discurso es una frase?
0 votos
No, quiero comparar el grupo A (datos completos del episodio 1-x) con el grupo B (datos completos del episodio x+1-último episodio)
0 votos
@Hossein una celda es el número de veces que aparece una determinada longitud de discurso en un episodio. Por ejemplo, el episodio 1 contiene 14 discursos de longitud 1, 7 de longitud 2 y así sucesivamente
0 votos
Sí, lo sé. Pero me refiero a lo que se considera como un discurso en un episodio? sólo una frase se considera como un discurso?
2 votos
Un discurso va desde el momento en que un orador empieza a hablar hasta que otro empieza a hacerlo. Así, el diálogo "¡hola! ¿cómo estás? - Yo estoy bien y tú? ¿Cómo estás tú? - Yo también estoy bien' serían 3 discursos. Así que un discurso puede consistir en varias frases o también en no más de una sola palabra como 'hola'
0 votos
@Igle, si es para cada hablante individualmente, puedes utilizar la prueba t sobre la media del primer conjunto de episodios frente al segundo conjunto.