Tengo un conjunto de controladores que son binarios y un concepto para medir que contiene números naturales entre 1 y 10.
Actualmente estoy utilizando el análisis de controladores clave de Kruskal para determinar la contribución relativa de cada uno de los controladores. Se discute como más robusto que la Correlación de Pearson al tener en cuenta el conjunto completo de controladores y su contribución relativa.
Sin embargo, ¿es aún válido enfoque de Kruskal cuando los controladores son binarios y el concepto a medir son números naturales entre 1 y 10? Pensé en cambiar al uso de la correlación punto biserial, sin embargo, esto es idéntico al coeficiente de correlación de Pearson.
Mi pregunta es: ¿Dónde establezco el umbral entre un controlador 'bueno' y un controlador 'no tan bueno'? Depende del tamaño de los datos y también de las propiedades de los datos. Calcular la significancia utilizando pruebas t (ignorando el hecho de que los datos pueden no cumplir con las suposiciones necesarias de la prueba t (esto está incluido en el algoritmo pearsonr de scipy), los considera todos significativos, ya que generalmente lo serán porque incluso los controladores débiles tendrán alguna correlación y no son 'aleatorios'. Por lo tanto, ¿debo establecer que los controladores 'fuertes' tengan un valor de p muy bajo - algo que parece bastante arbitrario. ¿O hay un mejor algoritmo que pueda distinguir entre controladores fuertes y débiles?
¿O es que ningún algoritmo realmente puede determinar qué es un controlador fuerte? ¿Depende de otros factores relacionados con el contexto de los datos que se están analizando?