1 votos

Cómo puedo realizar una prueba de chi-cuadrado para hacer la selección de características en R

Document/Term Freq  C1  C2  C3  C4  C5  C6  C7  C8     C9   Tag
D1                  0   1   3   1   1   0   0   1       0   X1
D2                  1   1   3   0   1   0   0   2       0   X2
D3                  2   0   2   0   1   0   0   0       0   X3
D4                  0   0   4   0   1   0   0   0       0   X1
D5                  0   0   1   1   1   0   0   1       1   X2
D6                  0   0   0   0   1   0   0   1       1   X2
D7                  0   0   0   1   1   1   1   3       0   X3
D8                  1   0   0   0   1   2   1   0       0   X1
D9                  1   0   1   1   2   2   1   3       1   X1

Tengo una DocumentTermMatrix de la forma anterior donde D1, D2, D3.....D9 son los documentos. C1, C2, C3....C9 son los términos disponibles en todos o cualquiera de los documentos y los números son las frecuencias con las que el término aparece en el documento. Los valores de la columna Etiqueta son la etiqueta de cada documento. Mi MDT original tiene unas 100.000 filas y 2.000 características (columnas) y el número de etiquetas únicas es de unas 6.000. Ahora quiero realizar la prueba de chi-cuadrado para la selección de características en R. Pero no sé cómo hacerlo en R y una vez hecho cómo interpretar los resultados para poder hacer una selección de características basada en el resultado de chi-cuadrado.

0voto

Comprobar manualmente cada columna puede ser una sobrecarga que se puede evitar.

Puedes probar el siguiente enfoque:

Ejecute un bosque aleatorio en su matriz de documentos de términos.

Observa la importancia de cada variable.

Esto debería limitar su búsqueda a los predictores más significativos.

Además, recomendaría probar el paquete RTextTools que podría automatizar sus necesidades de clasificación utilizando conjuntos. He encontrado que es prácticamente el más útil para el menor esfuerzo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X