Esta es una pregunta ingenua de alguien que empieza a aprender el aprendizaje de máquina. Estoy leyendo estos días el libro "la Máquina de Aprendizaje: Una perspectiva algorítmica" de Marsland. Me parece útil como libro introductorio, pero ahora me gustaría ir en algoritmos avanzados, aquellos que actualmente están dando los mejores resultados. Estoy interesada en bioinformática: la agrupación de las redes biológicas y de la búsqueda de patrones en secuencias biológicas, especialmente aplicado a la polimorfismo de nucleótido único (SNP) en el análisis. Podría usted recomendarme algunas de las críticas o libros para leer?
Respuestas
¿Demasiados anuncios?Aprendizaje profundo tiene un montón de enfoque desde el 2006. Se trata básicamente de un enfoque de tren profundo redes neuronales y es líder realmente impresionantes resultados en muy duro conjuntos de datos (como documento de la agrupación o de reconocimiento de objetos). Algunas personas están hablando de la segunda red neuronal del renacimiento (por ejemplo, en este Google talk por Schmidhuber).
Si quieres ser impresionado que usted debe buscar en este artículo de Science Reducir la Dimensionalidad de los Datos con Redes Neuronales, Hinton & Salakhutdinov.
(Hay mucho trabajo que están sucediendo ahora mismo en esa zona, que sólo hay dos próximos libros que saber sobre que va a tratar: a Gran escala de la máquina de aprendizaje, Langford et al y de la Máquina de Aprendizaje: una perspectiva probabilística por Kevin Murphy.)
Si quieres saber más, echa un vistazo a lo que el principal aprendizaje profundo grupos están haciendo: Stanford, Montreal y lo que es más importante Toronto #1 y Toronto #2.
La mayoría de las respuestas dadas hasta el momento se refieren a "Aprendizaje Supervisado" (es decir, donde tienen etiquetas para una parte de su conjunto de datos, que puede utilizar para entrenar los algoritmos). La pregunta se menciona específicamente la agrupación, que es una "Supervisión" enfoque (es decir, sin etiquetas son conocidos de antemano). En este caso te sugiero buscar en:
- k-means y kernel k-means
- Agglomerative La Agrupación
- No negativo de la Matriz de Factorización
- Latente De Dirichlet Asignación
- Dirichlet Procesos y Jerárquica de Dirichlet Procesos
Pero en realidad, usted probablemente encontrará que su similitud/distancia medida es más importante que el algoritmo específico que usted use.
Si usted tiene algunos de los etiquetados de los datos, a continuación, "Aprendizaje Semi-Supervisado" los enfoques que se están ganando popularidad y puede ser muy poderoso. Un buen punto de partida para SSL es el LapSVM (Laplaciano Máquina de Soporte Vectorial).
Estos son los libros que podrían ser de ayuda:
- Introducción a la Minería de Datos por Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Esta fue la propuesta de libro durante mi Minería de Datos clases en la universidad. Me gusta su diseño y el enfoque teórico;
- Minería de datos: la Práctica de la Máquina de Aprendizaje de Herramientas y Técnicas de Ian H. Witten, Eibe Frank, Mark A. Hall. Un libro muy interesante. Este libro cubre también muchas técnicas que se implementaron con el Marco de la Minería de Datos WEKA;
- La máquina de Aprendizaje por Thomas Mitchell. Es un poco viejo libro, pero puede ser útil.
A continuación, recuerde que usted puede asistir a clases gratuitas de aprendizaje de Máquina en Stanford acaba de empezar: www.ml-class.com.
Y para su problema en particular, que es el análisis de SNP, me gustaría sugerir a echar un vistazo a la Di Camillo del grupo en la Universidad de Padua.
Aquí es un gran artículo y el libro que explica la lógica, la teoría y la aplicación de la mayoría de los métodos más populares:
Top 10 de los Algoritmos de Minería de Datos
Es especialmente cuidada porque es un "top 10", elegido por votación de los expertos en el campo.
También, para el gen de datos en general, la selección de características es de gran importancia porque de las muchas características. Por ejemplo, SVM función recursiva eliminación (SVM-RFE) y los correspondientes métodos son muy populares y siendo activamente desarrollado y aplicado en el contexto de los datos genéticos.