Document/Term Freq C1 C2 C3 C4 C5 C6 C7 C8 C9 Tag
D1 0 1 3 1 1 0 0 1 0 X1
D2 1 1 3 0 1 0 0 2 0 X2
D3 2 0 2 0 1 0 0 0 0 X3
D4 0 0 4 0 1 0 0 0 0 X1
D5 0 0 1 1 1 0 0 1 1 X2
D6 0 0 0 0 1 0 0 1 1 X2
D7 0 0 0 1 1 1 1 3 0 X3
D8 1 0 0 0 1 2 1 0 0 X1
D9 1 0 1 1 2 2 1 3 1 X1
Tengo una DocumentTermMatrix de la forma anterior donde D1, D2, D3.....D9 son los documentos. C1, C2, C3....C9 son los términos disponibles en todos o cualquiera de los documentos y los números son las frecuencias con las que el término aparece en el documento. Los valores de la columna Etiqueta son la etiqueta de cada documento. Mi MDT original tiene unas 100.000 filas y 2.000 características (columnas) y el número de etiquetas únicas es de unas 6.000. Ahora quiero realizar la prueba de chi-cuadrado para la selección de características en R. Pero no sé cómo hacerlo en R y una vez hecho cómo interpretar los resultados para poder hacer una selección de características basada en el resultado de chi-cuadrado.