¿Cuáles son los algoritmos de aprendizaje automático más comunes aplicados a los datos categóricos binarios?

Question

¿Cuáles son los algoritmos de aprendizaje automático más comunes aplicados a los datos categóricos binarios?

Preguntado el 13 de Octubre, 2016: Cuando se hizo la pregunta
904 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Cerrada: Estado actual de la pregunta

Estoy desarrollando un conjunto de procedimientos de diagnóstico médico que se evaluarán mediante variables categóricas binarias. Quiero evaluar la importancia relativa de estos criterios. Así podremos centrar nuestros tratamientos en aquellos que tengan el mayor nivel de impacto en la salud general de los pacientes.

Ejemplo de nuestros datos

Este es un ejemplo del tipo de datos que recogeríamos. En un día determinado, evaluaríamos al paciente en función de un conjunto de criterios de evaluación binarios (también conocidos como "métricas").

Nuestro interés por el aprendizaje automático

Lo que queremos es empezar a entender las correlaciones y relaciones entre las métricas para poder priorizar nuestros tratamientos. El trabajo que hacemos es una forma avanzada de fisioterapia. Adaptamos nuestro programa de ejercicios a las mejoras que vemos en el paciente. Experimentamos con diferentes ejercicios para encontrar combinaciones que maximicen el número total de métricas que tiene el paciente. Pero no creo que esta sea la forma más eficiente de mejorar la salud del paciente porque la cantidad de métricas que dan positivo no es el factor más importante. Algunas de las métricas son claramente más importantes que otras sólo en base a nuestra comprensión teórica y formación. Pero ha resultado difícil encontrar esto en los datos simplemente mirando a ojo las tablas de 1s y 0s. Calcular las correlaciones de Pearson es fácil, pero insuficiente para identificar patrones de forma sistemática. Por lo que he leído, creo que un enfoque algorítmico de aprendizaje automático sería mucho más eficaz para identificar tratamientos eficaces.

¿En qué sentido es nuestro problema binario

Aunque utilicemos características binarias, creo que este no es un problema de clasificación binaria. La salud no es una categoría binaria para nosotros. El paciente no se considera sano a menos que dé positivo en todas las métricas que utilizamos. Así que decir simplemente que están sanos o que no están sanos no es un problema útil para resolver porque ya tenemos una forma de diagnosticar esto.

Creo que nuestro objetivo es utilizar el aprendizaje automático para ayudar a identificar mejor los grados de "salud" mediante la agrupación de criterios que parecen influirse mutuamente. Por el momento, sólo utilizamos características binarias. En nuestro trabajo, las características generalmente numéricas (es decir, definidas sobre $\Bbb R$ ) no funcionan bien porque es difícil cuantificar los atributos del paciente en términos numéricos que sean realmente útiles para predecir los tratamientos. Las métricas graduales/ordinales tampoco son buenas porque es difícil saber cómo definir las magnitudes de la escala. Así que las métricas binarias suelen ser las más útiles.

Lo que busco

Estaba pensando en probar el código de los algoritmos de aprendizaje automático aplicables a las características binarias. Me imagino que si encuentro algunos ejemplos para empezar, puedo experimentar un poco y probar cuáles podrían ser más útiles para nuestros propósitos. Pero estoy teniendo problemas para reducir mis opciones. Muchas veces, cuando busco aprendizaje automático binario, obtengo "clasificación binaria", que no creo que sea lo que quiero. Los árboles de decisión parecen plausibles, pero no estoy seguro de qué tipo debería buscar teniendo en cuenta la cantidad de tipos que hay.

Propiedades clave a tener en cuenta

Características binarias
Aprendizaje no supervisado
Las características no son independientes (en sentido probabilístico) y habrá correlaciones entre ellas.
Puede que busque algo relacionado con la "selección de características"

Mi pregunta

¿Cuáles son los algoritmos de aprendizaje automático más comunes aplicados a los datos categóricos binarios?

Esto puede ser demasiado subjetivo, en cuyo caso lo borraré si me lo piden.

Preguntado el 13 de Octubre, 2016 por Dan

Answer 1

2 Respuestas

Answer 2

0voto

apt-get install happyness Puntos 53

Considerarlo como un problema de 2 clases (sano/insano). Para comprobar la importancia de las variables, una prueba χ2 para la tabla 2 × 2 o la prueba de McNemar sería muy buena. Un valor p inferior a 0,05 haría que la variable fuera significativa. https://www.researchgate.net/publication/5883796_Which_is_the_correct_statistical_test_to_use

En este caso, un árbol de decisión habitual es una buena opción. Pero hay que asegurarse de podarlo para evitar el sobreajuste del modelo. Una opción más adecuada sería utilizar bosques aleatorios, que es un conjunto (colección) de muchos árboles de decisión.

Respondido el 14 de Octubre, 2016 por apt-get install happyness (53 Puntos )

Answer 3

0voto

Benjamin Cremer Puntos 3879

No estoy seguro de entender del todo lo que quieres hacer, pero si quieres agrupar a los pacientes (y usar un algoritmo de clustering), tu mayor problema será la maldición de la dimensionalidad. Para evitarlo deberías utilizar un algoritmo de reducción de dimensión. A mí me gustan especialmente los autocodificadores cuando tengo características binarias. Entonces empezarás con un gran número de entradas binarias y acabarás con un número menor de entradas continuas que te permitirán utilizar métodos de clustering tradicionales (k means u otros)

Respondido el 8 de Mayo, 2018 por Benjamin Cremer (3879 Puntos )

¿Cuáles son los algoritmos de aprendizaje automático más comunes aplicados a los datos categóricos binarios?

Ejemplo de nuestros datos

Nuestro interés por el aprendizaje automático

¿En qué sentido es nuestro problema binario

Lo que busco

Propiedades clave a tener en cuenta

Mi pregunta

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cuáles son los algoritmos de aprendizaje automático más comunes aplicados a los datos categóricos binarios?

Ejemplo de nuestros datos

Nuestro interés por el aprendizaje automático

¿En qué sentido es nuestro problema binario

Lo que busco

Propiedades clave a tener en cuenta

Mi pregunta

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: