Tengo un conjunto de datos con ~150 variables categóricas y ~150k filas. De antemano se espera que algunas de las variables categóricas sean idénticas o casi idénticas. Me gustaría codificar algo en R para marcar estas variables.
Mi primer esfuerzo en este sentido ha consistido en tomar la primera variable categórica y, a continuación, realizar secuencialmente pruebas de Chi-cuadrado de esta variable con el resto de variables del conjunto de datos. Sin embargo, esto produce muchos "falsos positivos".
Por ejemplo, tengo una variable de fecha que arroja valores p inferiores a 0,01 cuando se compara con otra variable. Y . Ahora bien, es totalmente plausible que la distribución de Y varió con la fecha, por lo que quizá la prueba Chi-Sq sea inadecuada para esta tarea. En realidad, busco algún medio para comprobar si estas variables categóricas son casi totalmente equivalentes, digamos que el 95 % de las filas son equivalentes cuando se codifican.
¿Algún consejo?