2 votos

¿Cuáles son los algoritmos de aprendizaje automático más comunes aplicados a los datos categóricos binarios?

Estoy desarrollando un conjunto de procedimientos de diagnóstico médico que se evaluarán mediante variables categóricas binarias. Quiero evaluar la importancia relativa de estos criterios. Así podremos centrar nuestros tratamientos en aquellos que tengan el mayor nivel de impacto en la salud general de los pacientes.

Ejemplo de nuestros datos

enter image description here

Este es un ejemplo del tipo de datos que recogeríamos. En un día determinado, evaluaríamos al paciente en función de un conjunto de criterios de evaluación binarios (también conocidos como "métricas").

Nuestro interés por el aprendizaje automático

Lo que queremos es empezar a entender las correlaciones y relaciones entre las métricas para poder priorizar nuestros tratamientos. El trabajo que hacemos es una forma avanzada de fisioterapia. Adaptamos nuestro programa de ejercicios a las mejoras que vemos en el paciente. Experimentamos con diferentes ejercicios para encontrar combinaciones que maximicen el número total de métricas que tiene el paciente. Pero no creo que esta sea la forma más eficiente de mejorar la salud del paciente porque la cantidad de métricas que dan positivo no es el factor más importante. Algunas de las métricas son claramente más importantes que otras sólo en base a nuestra comprensión teórica y formación. Pero ha resultado difícil encontrar esto en los datos simplemente mirando a ojo las tablas de 1s y 0s. Calcular las correlaciones de Pearson es fácil, pero insuficiente para identificar patrones de forma sistemática. Por lo que he leído, creo que un enfoque algorítmico de aprendizaje automático sería mucho más eficaz para identificar tratamientos eficaces.

¿En qué sentido es nuestro problema binario

Aunque utilicemos características binarias, creo que este no es un problema de clasificación binaria. La salud no es una categoría binaria para nosotros. El paciente no se considera sano a menos que dé positivo en todas las métricas que utilizamos. Así que decir simplemente que están sanos o que no están sanos no es un problema útil para resolver porque ya tenemos una forma de diagnosticar esto.

Creo que nuestro objetivo es utilizar el aprendizaje automático para ayudar a identificar mejor los grados de "salud" mediante la agrupación de criterios que parecen influirse mutuamente. Por el momento, sólo utilizamos características binarias. En nuestro trabajo, las características generalmente numéricas (es decir, definidas sobre $\Bbb R$ ) no funcionan bien porque es difícil cuantificar los atributos del paciente en términos numéricos que sean realmente útiles para predecir los tratamientos. Las métricas graduales/ordinales tampoco son buenas porque es difícil saber cómo definir las magnitudes de la escala. Así que las métricas binarias suelen ser las más útiles.

Lo que busco

Estaba pensando en probar el código de los algoritmos de aprendizaje automático aplicables a las características binarias. Me imagino que si encuentro algunos ejemplos para empezar, puedo experimentar un poco y probar cuáles podrían ser más útiles para nuestros propósitos. Pero estoy teniendo problemas para reducir mis opciones. Muchas veces, cuando busco aprendizaje automático binario, obtengo "clasificación binaria", que no creo que sea lo que quiero. Los árboles de decisión parecen plausibles, pero no estoy seguro de qué tipo debería buscar teniendo en cuenta la cantidad de tipos que hay.

Propiedades clave a tener en cuenta

  • Características binarias
  • Aprendizaje no supervisado
  • Las características no son independientes (en sentido probabilístico) y habrá correlaciones entre ellas.
  • Puede que busque algo relacionado con la "selección de características"

Mi pregunta

¿Cuáles son los algoritmos de aprendizaje automático más comunes aplicados a los datos categóricos binarios?

Esto puede ser demasiado subjetivo, en cuyo caso lo borraré si me lo piden.

0voto

Considerarlo como un problema de 2 clases (sano/insano). Para comprobar la importancia de las variables, una prueba χ2 para la tabla 2 × 2 o la prueba de McNemar sería muy buena. Un valor p inferior a 0,05 haría que la variable fuera significativa. https://www.researchgate.net/publication/5883796_Which_is_the_correct_statistical_test_to_use

En este caso, un árbol de decisión habitual es una buena opción. Pero hay que asegurarse de podarlo para evitar el sobreajuste del modelo. Una opción más adecuada sería utilizar bosques aleatorios, que es un conjunto (colección) de muchos árboles de decisión.

0voto

Benjamin Cremer Puntos 3879

No estoy seguro de entender del todo lo que quieres hacer, pero si quieres agrupar a los pacientes (y usar un algoritmo de clustering), tu mayor problema será la maldición de la dimensionalidad. Para evitarlo deberías utilizar un algoritmo de reducción de dimensión. A mí me gustan especialmente los autocodificadores cuando tengo características binarias. Entonces empezarás con un gran número de entradas binarias y acabarás con un número menor de entradas continuas que te permitirán utilizar métodos de clustering tradicionales (k means u otros)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X