20 votos

¿Qué es lo primero: los conocimientos especializados o un enfoque experimental?

En mi organización, nos estamos embarcando en una iniciativa de IA en la que tratamos de identificar casos de uso empresarial y resolverlos utilizando métodos tradicionales. ML algoritmos.

Sin embargo, nuestros usuarios empresariales afirman que, antes incluso de participar en la lluvia de ideas, la selección y la reducción del espacio de características, piden a la gente de datos que realice un análisis detallado y experimentos y averigüe cuáles son las características más importantes y que parecen importantes mediante experimentos...

Ejemplo: Supongamos que mis datos tienen 200 características y 30.000 filas. Nuestro equipo de negocio dice que no podrán guiarnos sobre cuáles son las características más relevantes a tener en cuenta, porque piensan que esto podría sesgar los resultados. Por lo tanto, quieren que la gente de datos encuentre las características importantes a través de experimentos.

Posteriormente, tome estas características y diríjase al equipo empresarial para comprobar su pertinencia. Básicamente, los expertos en la materia no aportan nada hasta que tienen cierta confianza en los resultados del algoritmo (para las características relevantes que influyen en la variable objetivo).

¿Es así como funciona normalmente en los proyectos de IA del mundo real? ¿Es este un enfoque mejor para empezar con un proyecto de IA? ¿Hay algo que debamos tener en cuenta?

27voto

icelava Puntos 548

Esto probablemente se cerrará rápidamente como basado en la opinión, pero aquí es un punto que puede que desee considerar.

200 funciones es mucho y 30.000 filas es menos de lo que parece. Una "expedición de pesca" para encontrar características relevantes es muy probable que sobreajuste y seleccione características espurias . El peligro es que cuando acudas a los expertos de tu dominio con estas características que has "encontrado" relevantes, es posible que no te den la razón. En su lugar, es una reacción humana muy común empezar a contar historias sobre cómo estas características son realmente útiles, porque los humanos somos muy bueno explicando cosas, incluso cosas que son simplemente ruido.

Hable con sus expertos primero no evitará por completo este problema, pero puede reducir el número de búsquedas inútiles.

Le puede interesar mi respuesta a "¿Cómo saber que tu problema de aprendizaje automático no tiene solución?" .

20voto

usεr11852 Puntos 5514

John Elder dio en 2005 una presentación (ya clásica) titulada: " Los 10 principales errores de la minería de datos ". El número 4 de esa lista es: Escucha (sólo) los datos.

Específicamente para entornos empresariales en los que es casi seguro que actuamos utilizando información incompleta (por ejemplo, prioridades del cliente, recursos financieros y físicos, marco legal, etc.) que afecta a nuestro resultado de interés, ignorar el conocimiento previo puede ser muy perjudicial. En el mejor de los casos duplicaremos el trabajo y/o produciremos resultados triviales; en el peor, obtendremos conclusiones "basadas en datos" sin sentido. Para ser totalmente pesimista en este sentido como Ley de Twyman estados: " Cualquier cifra que parezca interesante o diferente suele estar equivocada ".

Algunos puntos específicos a su pregunta:

  1. Encontrar " las características importantes mediante experimentos " implicará un diseño experimental completo. Si están dispuestos a invertir tiempo y dinero en ello, adelante. Familiarícese también con el "Análisis de Datos de observación "(sí, es "poco sexy" leer sobre análisis de encuestas, pero tratar una muestra sesgada como si fuera aleatoria es catastrófico).
  2. Este es un buen punto en un proyecto de análisis de la vida para considerar las aplicaciones de Inferencia bayesiana para formalizar las hipótesis de modelización. En pocas palabras, si tenemos 200 características, es más probable que algunas afecten al resultado que otras.
  3. Respeta la física del entorno en el que operas (hasta que no tengas que hacerlo). La intensidad de la señal disminuye a medida que aumenta la distancia; un cliente medio de Luxemburgo tiene más ingresos por disposición que uno de Bulgaria. Utilice redes bien establecidas hipótesis como antecedentes/puntos de partida del análisis; actualícelos con prudencia.
  4. Lea la bibliografía. Realmente Esto es no sólo una actividad académica. Muy a menudo podemos obtener respuestas razonables mediante recursos curados si realizamos búsquedas formales. Del mismo modo, si no hay nada disponible, es una razón más para revisar los puntos 1 y 2 con más detalle.

Recapitulemos: absolutamente Habla con expertos en la materia (o esfuérzate por convertirte tú mismo en uno de ellos). Te ahorrará mucho trabajo; en todo caso, tendrás una idea más clara de cómo presentar tus conclusiones y de cuáles son los puntos conflictivos habituales.

6voto

Aaron Puntos 36

El problema al que se enfrenta es un selección de variables problema, por lo que se aplican los principios y métodos habituales. En particular, si se dispone de un gran número de variables/características iniciales entre las que elegir, existe el peligro de que sobreajuste si no se adoptan métodos adecuados que tengan en cuenta las comparaciones múltiples. En el caso de que disponga de una fuente exógena de información sobre las variables procedente de expertos en la materia, ésta puede utilizarse para información previa para orientar su método de selección --- por ejemplo, para acotar el modelo/las comparaciones que hará.

Tiene razón al tener serias dudas sobre la propuesta que se le ha hecho. La idea de utilizar primero métodos estadísticos para encontrar características relevantes, y luego dar esta información al equipo de negocio para informar de sus comentarios me parece una idea terrible. De este modo, se adopta una forma potencial de a priori información exógena y la sesgas mucho al introducir primero tus resultados estadísticos. Se ciertamente sesgar la opinión del equipo empresarial, por lo que cualquier información que le den después probablemente estará contaminada y será inútil. Si entonces limitas tu modelo/ajuste para centrarte en las características/variables que ellos "confirman", esto sobreponderará efectivamente los datos en tu ajuste del modelo original (ya que en gran medida sólo te devolverán los resultados posteriores como información previa) y es casi seguro que sobreajustarás tu modelo. Recomiendo leer Gelman y Loken (2013) sobre el "jardín de senderos que se bifurcan" que se produce al tomar decisiones de investigación/modelización.

4voto

Daniel Duque Puntos 1

Aquí hay dos aspectos: la inferencia causal y la explicabilidad.

De un inferencia causal Desde esta perspectiva, la experiencia en el dominio debe guiar el proceso de construcción de factores relevantes sobre un propósito dado, objetivos, que estén realmente vinculados y no sean meras correlaciones exploradas o descubiertas por los científicos de datos. Inferencia e intervención: Causal Models for Business, de Ryall-Bramson (2013), rutledge proporciona un conjunto de estudios de casos sobre cómo el conocimiento del dominio puede guiar la construcción de modelos causales.

En los proyectos puramente de aprendizaje automático, el resultado final es el rendimiento del modelo. El llamado descubrimiento y extracción de características suele realizarse sin la aportación de expertos en la materia, y el científico de datos genera el modelo más eficaz. La participación de los expertos en la materia en este enfoque parece consistir en garantizar que se establezca el objetivo empresarial correcto en los modelos de aprendizaje automático. Si se trata de un entorno regulado o existe un requisito, el trabajo de explicabilidad del modelo de aprendizaje automático puede requerir la intervención de un experto en la materia. Aprendizaje automático interpretable .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X