12 votos

¿Máquina automatizada es el aprendizaje un sueño?

Como puedo descubrir máquina de aprendizaje veo diferentes técnicas interesantes, tales como:

  • sintonizar automáticamente algoritmos con técnicas tales como grid search,
  • obtener resultados más precisos a través de la combinación de algoritmos diferentes de un mismo "tipo", que boosting,
  • obtener resultados más precisos a través de la combinación de diferentes algoritmos (pero no el mismo tipo de algoritmos), stacking,
  • y, probablemente, mucho más todavía tengo que descubrir...

Mi pregunta es la siguiente: no están todas las piezas. Pero, ¿es posible poner juntos para hacer un algoritmo que toma como entrada limpia de datos y salidas de los buenos resultados tomando la mejor de todas las técnicas? (Por supuesto, probablemente será menos eficiente que un profesional del científico de datos, pero será mejor que yo!) Si sí, ¿tiene códigos de ejemplo o conoces marcos que puede hacer eso?

EDIT : Después de algunas respuestas, parece que algunos estrechamiento tiene que ser hecho. Veamos un ejemplo, tenemos una columna con datos categóricos, vamos a llamar a y y queremos predecir de datos numéricos X que es dummies o real de los datos numéricos (altura, temperatura). Asumimos que la limpieza se ha hecho previamente. ¿Existe algoritmo que puede tomar esos datos y la salida de una predicción? (en pruebas múltiples algoritmos de optimización ellos, impulsar, etc.) Si sí, es computacionalmente eficiente (son los cálculos realizados en un tiempo razonable si se compara a la normalidad algoritmo), y usted tiene un ejemplo de código?

7voto

icelava Puntos 548

Si usted sabe de antemano qué tipo de datos va a alimentar en ("estas son las ventas mensuales de CPGs, con los precios y la promoción de los marcadores, y quiero un punto de forecast"), así que usted puede ajustar su configuración antes de tiempo, que probablemente va a ser posible y que ya hace esto, ver los diferentes "sistemas expertos" para ciertas tareas específicas.

Si usted está buscando algo que puede tomar cualquier tipo de datos y hacer "algo útil" ("ah, aquí se supone que debo reconocer escritura a mano y la salida de los códigos postales, y no sé que debo hacer para la detección de fraude, y este archivo de entrada , obviamente, es una puntuación de crédito de la tarea"), no, yo no creo que va a pasar en mucho tiempo.

Lo siento, para una opinión basada en respuesta a lo que bien podría ser cerrado como una opinión basada en cuestión.


EDITAR a la dirección de la edición pregunta:

tenemos una columna con datos categóricos, vamos a llamar a $y$ y queremos predecir de datos numéricos $X$ que es dummies o real, de datos numéricos

Esto suena como algo que los Bosques Aleatorios son en realidad bastante bueno. A continuación, de nuevo, un "propósito general" algoritmo como RFs es probable que nunca golpeó a un algoritmo que fue ajustado a un particular tipo de $y$ conoce de antemano, por ejemplo, a mano dígitos, o de crédito, los riesgos de impago.

7voto

Marc Claesen Puntos 9818

Lo que usted describe ya existe, en cierta medida, por ejemplo, en AutoWEKA, y se researrched activamente (por ejemplo, retos, como Chalearn del AutoML).

Esto es generalmente considerado en el subcampo de hyperparameter de optimización. Paquetes de Software como Optunity, Hyperopt y ParamILS puede ser utilizado para optimizar automáticamente hyperparameters para un determinado enfoque y elegir el enfoque que pasa a ser el mejor. Dicho esto, problemas de optimización no son triviales y por lo general se toma un largo tiempo para obtener automáticamente el mejor modelo (o cerca de ella).

Usted puede encontrar un ejemplo de uso de Optunity para determinar automáticamente el mejor algoritmo de aprendizaje y optimizar su hyperparameters en http://optunity.readthedocs.org/en/latest/notebooks/notebooks/sklearn-automated-classification.html

4voto

Pedro Lobito Puntos 104

Los avances en la tecnología hyper parámetro de ajuste y ensamble de modelos están tomando una gran cantidad de el 'arte' de la construcción de modelos. Sin embargo, hay dos aspectos importantes de la construcción de modelos que hyper parámetro de ajuste y los conjuntos no mucho con el y le ayudará a encontrar el mejor modelo posible.

En primer lugar, ciertos tipos de algoritmos son mejores en el modelado de ciertos tipos de datos. Por ejemplo, si hay interacciones entre las variables, es un modelo aditivo no se van a encontrar, pero un árbol de decisión de la voluntad. Saber cómo los modelos se comportan en el conjunto de datos diferente, y cogiendo la de la derecha, puede requerir el conocimiento sobre el dominio para encontrar el mejor algoritmo de modelización.

Segundo, la función de la ingeniería y la extracción de características es el verdadero "arte" para la construcción de modelos. Su pregunta se supone que el conjunto de datos ya está preparado. Pero lo que usted no debe asumir es que el conjunto de datos es la mejor representación posible de lo que usted está tratando de modelo. Esto es siempre y pregunta abierta. En muchos casos, cuando el conjunto de datos es compleja, ingeniero características de todo el día, pero se corre el riesgo de lanzar más y más ruido en el algoritmo. Para saber que características a añadir, debe saber que características tienen sentido desde un punto de vista estadístico y que tienen sentido desde la perspectiva del dominio de los expertos.

Por esas dos razones, llego a la conclusión de que no, usted no será capaz de encontrar un algoritmo que encuentra la mejor posible modelo automáticamente. Esta es también la razón por la que yo soy escéptico de los proveedores de software de pitcheo herramientas que reemplazará a la necesidad de los científicos de datos.

Sin embargo, si usted está reduciendo su ambición de encontrar el mejor modelo a partir de un conjunto fijo de modelos, con un óptimo hyper parámetros, donde la 'mejor' se define como la máxima precisión predictiva en un conjunto de entrenamiento, entonces sí, esto es posible.

Echa un vistazo a la caret paquete en R como un ejemplo de cómo sintonizar automáticamente modelos. caret utiliza la cuadrícula de búsqueda, los cuales ha defectos, y se construye un modelo a la vez. Sin embargo, hay funciones para comparar modelos y conveniente contenedores para una larga lista de modelos de diferentes R paquetes.

2voto

trish Puntos 31

Depende de a quién le preguntes.

Recientemente escuché una charla a cargo de Scott Golder en el Contexto Pertinente. Su producto es esencialmente una función y selección del modelo de robot. La básica subyacente modelo de regresión logística, pero el sistema básicamente utiliza la máquina de aprendizaje para averiguar la combinación correcta de la selección de características, reducción de dimensiones, regularización, etc. para la generación de predicciones precisas. Fue muy impresionante hablar, y los detalles son todos muy de propiedad. Al parecer, entre sus clientes se encuentran las principales empresas financieras y el sistema puede manejar arbitrariamente grandes conjuntos de datos.

Al menos un par de personas, entonces, parecen pensar automatizado de los datos de la ciencia ya está aquí, al menos para ciertas aplicaciones. Y algunas de esas personas (Contexto Relevante de los clientes) son al parecer el pago a través de la nariz para acceder a él.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X