Árbol de clasificación de los métodos que usted ha estado usando no son "óptimas". Si es que el poder de predicción que está buscando, entonces usted podría estar interesado en un relativamente nuevo paradigma que identifica específicamente a la mayoría de los modelos precisos posible para una determinada aplicación. Para cualquier muestra dada y de la colección de variables, el Óptimo ("la Máxima Precisión") Análisis de Datos (AOD) paradigma identifica un modelo estadístico que explícitamente maximiza la precisión de la clasificación.
Para la exposición, imaginar una muestra que consta de 100 observaciones, la mitad de los cuales son de clase 0, y la otra mitad de la clase 1. Imaginar observaciones fueron medidos en 176 variables independientes, pero sólo tres se hicieron en el modelo final. Por qué estos tres? Debido a que el modelo de participación de estas tres variables produjo mayor precisión de la clasificación de la muestra. ¿Qué significa esto? Esto significa que el modelo que anotó más puntos que cualquier otro modelo posible, para esta muestra de datos. Cómo son los puntos calculados?
- Si el modelo predice que la observación es de la clase 1, y eso es cierto, entonces la puntuación de un punto.
- Si el modelo predice que la observación es de la clase 0, y eso es cierto, entonces la puntuación de un punto.
- Si los predichos y los valores reales son diferentes, la puntuación de cero puntos.
En este ejemplo, el óptimo (máximo de precisión), el modelo es el que devuelve el máximo número de puntos para la aplicación. Cuando el número de miembros de las dos clases es diferente, el cálculo de este puntaje es diferente (ponderado por la base de la tasa, salvo que el operador especificado), pero la AOD todavía devuelve una normativa score-que se aplica igualmente en la interpretación a través de análisis independientes de estructuras de datos diferentes, que evalúa directamente el modelo de la exactitud de la clasificación. Y, si en lugar de (o además de), las observaciones fueron ponderados por el peso, tales como el tiempo (óptimo análisis de supervivencia), o el dinero (óptimo análisis financiero), luego de la AOD identifica la óptima exacta del modelo ponderado.
La AOD se originó como la combinación de metodologías de investigación de operaciones (donde el mejor o el máximo de la solución se llama "óptimo"), y las estadísticas exactas (de ahí el "análisis de datos"). El paradigma produce no paramétrica de modelos, da exactamente el Tipo de error de las estimaciones, y lineal y no-lineal multivariable de la AOD métodos han visto amplio uso, la producción de un gran número de los más precisos modelos estadísticos publicado aún en muchos diferentes disciplinas sustantivas. El énfasis en el paradigma está en la posibilidad de generalizar y de la validación cruzada.
Aquí hay un enlace (pdf) gratis artículo que introduce el desarrollo temprano del paradigma, y aquí hay un enlace a la seminal introducción a la AOD paradigma.