Estoy desarrollando un conjunto de procedimientos de diagnóstico médico que se evaluarán mediante variables categóricas binarias. Quiero evaluar la importancia relativa de estos criterios. Así podremos centrar nuestros tratamientos en aquellos que tengan el mayor nivel de impacto en la salud general de los pacientes.
Ejemplo de nuestros datos
Este es un ejemplo del tipo de datos que recogeríamos. En un día determinado, evaluaríamos al paciente en función de un conjunto de criterios de evaluación binarios (también conocidos como "métricas").
Nuestro interés por el aprendizaje automático
Lo que queremos es empezar a entender las correlaciones y relaciones entre las métricas para poder priorizar nuestros tratamientos. El trabajo que hacemos es una forma avanzada de fisioterapia. Adaptamos nuestro programa de ejercicios a las mejoras que vemos en el paciente. Experimentamos con diferentes ejercicios para encontrar combinaciones que maximicen el número total de métricas que tiene el paciente. Pero no creo que esta sea la forma más eficiente de mejorar la salud del paciente porque la cantidad de métricas que dan positivo no es el factor más importante. Algunas de las métricas son claramente más importantes que otras sólo en base a nuestra comprensión teórica y formación. Pero ha resultado difícil encontrar esto en los datos simplemente mirando a ojo las tablas de 1s y 0s. Calcular las correlaciones de Pearson es fácil, pero insuficiente para identificar patrones de forma sistemática. Por lo que he leído, creo que un enfoque algorítmico de aprendizaje automático sería mucho más eficaz para identificar tratamientos eficaces.
¿En qué sentido es nuestro problema binario
Aunque utilicemos características binarias, creo que este no es un problema de clasificación binaria. La salud no es una categoría binaria para nosotros. El paciente no se considera sano a menos que dé positivo en todas las métricas que utilizamos. Así que decir simplemente que están sanos o que no están sanos no es un problema útil para resolver porque ya tenemos una forma de diagnosticar esto.
Creo que nuestro objetivo es utilizar el aprendizaje automático para ayudar a identificar mejor los grados de "salud" mediante la agrupación de criterios que parecen influirse mutuamente. Por el momento, sólo utilizamos características binarias. En nuestro trabajo, las características generalmente numéricas (es decir, definidas sobre $\Bbb R$ ) no funcionan bien porque es difícil cuantificar los atributos del paciente en términos numéricos que sean realmente útiles para predecir los tratamientos. Las métricas graduales/ordinales tampoco son buenas porque es difícil saber cómo definir las magnitudes de la escala. Así que las métricas binarias suelen ser las más útiles.
Lo que busco
Estaba pensando en probar el código de los algoritmos de aprendizaje automático aplicables a las características binarias. Me imagino que si encuentro algunos ejemplos para empezar, puedo experimentar un poco y probar cuáles podrían ser más útiles para nuestros propósitos. Pero estoy teniendo problemas para reducir mis opciones. Muchas veces, cuando busco aprendizaje automático binario, obtengo "clasificación binaria", que no creo que sea lo que quiero. Los árboles de decisión parecen plausibles, pero no estoy seguro de qué tipo debería buscar teniendo en cuenta la cantidad de tipos que hay.
Propiedades clave a tener en cuenta
- Características binarias
- Aprendizaje no supervisado
- Las características no son independientes (en sentido probabilístico) y habrá correlaciones entre ellas.
- Puede que busque algo relacionado con la "selección de características"
Mi pregunta
¿Cuáles son los algoritmos de aprendizaje automático más comunes aplicados a los datos categóricos binarios?
Esto puede ser demasiado subjetivo, en cuyo caso lo borraré si me lo piden.