En primer lugar, puede haber cierta confusión en la terminología. Los árboles de decisión son rutinas de clasificación, a pesar de que se les conoce comúnmente como modelos CART (o árboles de clasificación y regresión) y, como tales, no son verdaderamente modelos de regresión (estoy seguro de que alguien discrepará de esta afirmación. No hay problema), sobre todo porque son técnicas no paramétricas y sin distribución.
Dicho esto, los tipos de métricas de rendimiento posibles pueden diferir entre los modelos de regresión y los árboles de decisión, pero las cuestiones fundamentales que se abordan no cambian. Desde el difunto y gran Leo Breiman en los años 90 (autor del libro original sobre CART), la industria estadística ha consagrado la optimización de la precisión predictiva (PA, alternativamente, la minimización del error cuadrático medio) como la métrica estándar de oro para la evaluación del rendimiento y la validación del modelo.
El hecho de que la AP haya evolucionado hasta alcanzar este estatus es comprensible: es fácil de calibrar y, en su mayor parte, es una estadística consistente para la validación de modelos internos. Sin embargo, con demasiada frecuencia es el único criterio para determinar el valor del modelo, sin tener en cuenta el impacto más amplio en el negocio, y a pesar de que es propenso a la piratería, los juegos y el fraude de los analistas.
El Premio Netflix de 2008 es una lección sobre estos retos. Netflix ofreció una recompensa a cualquier estadístico o equipo capaz de mejorar el MSE de su sistema de recomendación. Sin embargo, tal y como aprendió Netflix, el verdadero problema era que, desde una perspectiva de coste completo, la mejora real respecto a su modelo actual era una reducción del 0,005% en la escala de valoración real de 5 puntos. Además, los costes informáticos del mantenimiento de este conjunto de 107 modelos anulaban con creces cualquier ganancia derivada de la reducción de errores. Netflix abandonó la búsqueda de MSE y no se han concedido más premios Netflix.
Sin embargo, otros concursos -por ejemplo, Kaggle, Crowdanalytix- han consagrado la AP. Sin embargo, para ser justos, la era de los problemas de crowdsourcing como concursos de minería de datos era completamente nueva cuando NetFlix la lanzó. Los organizadores y patrocinadores de este tipo de eventos están aprendiendo ahora a ser más cuidadosos en la forma de plantear el problema y los concursos de minería de datos están evolucionando hacia soluciones más prácticas y más utilizables. Este año o el próximo, es posible que veamos concursos en los que el uso de una caja de arena de AWS designada (o equivalente) forme parte de la puntuación. "El servidor virtual oficial del concurso será de 8 CPUs a XXXX MHz y con 128 GB de RAM. Las soluciones que duren más de 4 horas serán penalizadas con un 10% por hora (prorrateado) por exceso de tiempo de ejecución. Las soluciones que duren más de 10 horas, o que fallen por exceder los recursos disponibles, serán descalificadas." Pero esto aún no ha ocurrido.
Lo que quiero decir es que la AP no es la única métrica para la validación de modelos. ¿Debería el analista estar dispuesto a sacrificar algo de AP al tener en cuenta otras consideraciones? ¿Qué combinación de posibles métricas satisfará las limitaciones en cuanto a la AP y obtendrá las ideas estratégicas más sólidas y la confianza en las predicciones frente a la información realmente fuera de la muestra y la incertidumbre inherente a todas las proyecciones futuras?
Integración con las finanzas de la empresa
Entre los analistas aplicados, tener experiencia en el dominio y un sentido general de cómo su negocio hace dinero puede resultar en una alineación mucho mayor entre las consideraciones puramente estadísticas como la AP y los objetivos estratégicos. Estas ideas, como muestra Netflix, no siempre son obvias. Algunos artículos recientes de la literatura sobre gestión estratégica señalan que la AP es una pista falsa que puede inducir a error, especialmente en lo que respecta a la planificación estratégica en condiciones de incertidumbre.
Modelos descriptivos y predictivos
Los modelos descriptivos encuentran un conjunto reducido de predictores que proporcionan información independiente de uno a otro, y son intuitivamente interpretables para los profanos en la materia para obtener las mayores percepciones estratégicas. Los modelos de precios son un ejemplo en el que la independencia es deseable, ya que el objetivo es entender cómo el precio por sí solo influye en el resultado. Los modelos de predicción, en cambio, suelen optimizar la AP y a veces se describen como "cajas negras" que son opacas o incluso contraintuitivas para el entendimiento de los profanos.
Validación del modelo
La AP no es unidimensional y las distinciones entre la validación interna frente a la externa o la verdaderamente fuera de la muestra pueden perderse o difuminarse:
-
Histórico: PA de una muestra de retención aleatoria o k-fold cv de los mismos datos
-
Previsión: se supone que los datos están en forma de serie temporal. La validación se realiza entre los valores previstos y los reales basados en las observaciones "de hoy" proyectadas hacia el futuro
-
Prospectiva: la validación externa sobre datos realmente fuera de la muestra, puede ser un experimento "en el mercado" que se logra haciendo predicciones sobre el futuro y luego esperando un período de tiempo para evaluar el modelo en relación con los eventos reales. Los programas informáticos como Unica también pueden proporcionar estas pruebas
Estabilidad del modelo
Las estimaciones de los parámetros pueden ser notoriamente inestables fuera de la muestra. Dado un conjunto fijo de predictores del modelo, ¿cómo de estables son a través de conjuntos de datos fijos, k-fold cv? Además, ¿cómo de estables son los predictores a través de los datos de k-fold cv basados en el método de selección de variables? ¿Proporcionan los distintos métodos resultados similares?
Métricas adicionales
La complejidad del modelo suele expresarse en términos del número de parámetros de un modelo y se basa en medidas como el AIC, el BIC o el Hannan-Quinn. También es posible utilizar otras medidas. Por ejemplo, existen métricas para evaluar aspectos cualitativos del rendimiento del modelo que pueden no mejorar la AP pero que pueden estar relacionadas con el poder descriptivo. Entre ellas se encuentran la D de Mandelbrot para la dimensionalidad fractal, el exponente H de Hurst para la aleatoriedad "salvaje", la entropía, el interés, la confianza conforme, la diversidad, la novedad, etc.