6 votos

Modelo de evaluación y comparación para seleccionar el mejor modelo

Al comparar los resultados obtenidos con diferentes modelos en R, lo que debo buscar para seleccionar el mejor?

Si yo, por ejemplo, utilizar las siguientes 4 modelos aplicados a la misma presencia/ausencia de la muestra tomada de una especie de conjunto de datos, con las mismas variables:

  • Modelo lineal generalizado

  • Los modelos aditivos generalizados Clasificación

  • Árbol De Regresión

  • Redes Neuronales Artificiales

Debo comparar todos los métodos por AIC, Kappa, o de validación cruzada?

Nunca voy a estar seguro de seleccionar el mejor modelo?

¿Qué sucede si comparamos los 4 modelos de predicción con un factor de Bayes? Puedo comparar?

16voto

Sean Hanley Puntos 2428

Usted está utilizando una amplia gama de diferentes tipos de modelos, y que hace de esta una situación interesante. Generalmente, cuando las personas dicen que están comprometidos en la selección del modelo, que significa que tienen un tipo de modelo, con diferentes conjuntos de factores (por ejemplo, un modelo de regresión múltiple con las variables a, B, C Y D, frente a, B Y a*B, etc.). Tenga en cuenta que con el fin de determinar el mejor modelo, es necesario especificar lo "mejor" significa; porque usted se está centrando en la minería de datos enfoques, estoy asumiendo que usted desea maximizar la precisión predictiva. Permítanme decir un par de cosas:

  1. Se puede / debe comparar con un factor de Bayes? Sospecho que esto puede ser hecho, pero tengo poca experiencia, así que debería dejar que otro CV contribuyente dirección; hay muchos aquí que son bastante fuertes sobre el tema.
  2. Debo comparar todos los métodos por los AIC? Yo no uso la AIC en su situación. En general, creo que muy bien de la AIC, pero no es apropiado para cada tarea. Hay diferentes versiones de la AIC, pero en esencia, funcionan de la misma: La AIC ajusta una bondad de ajuste de medida para la capacidad de un modelo para producir bondad de ajuste. Esto hace que al penalizar el modelo para el número de parámetros que tiene. Por lo tanto, esto supone que cada parámetro contribuye igualmente a la capacidad de un modelo para ajustar los datos. Al comparar un modelo de regresión múltiple para otro modelo de regresión múltiple, que es cierto. Sin embargo, no es del todo claro que la adición de otro parámetro a un modelo de regresión múltiple igualmente se suma a la capacidad del modelo para adaptarse a los datos como añadir otro parámetro muy diferentes tipo de modelo (por ejemplo, un modelo de red neuronal, o un árbol de clasificación).
  3. Debo comparar todos los métodos Kappa? También sé algo menos acerca de el uso de Kappa para este objetivo, pero aquí es un recurso con información general acerca de esto, y aquí es un papel que me topé con que hace uso de esta forma, y puede ser útil para usted (n.b., Yo no lo he leído).
  4. Debo comparar todos los métodos de validación cruzada? Esta es probablemente su mejor apuesta. El modelo seleccionado es el que minimiza el error de predicción en un conjunto de exclusiones.
  5. "Nunca voy a estar seguro de seleccionar el mejor modelo?" Nope. Estamos jugando un probabilísticas juego aquí, y eso es sólo la forma en que se va, por desgracia. Un enfoque que es probablemente vale la pena su tiempo para arrancar de sus datos, y aplicar el modelo de selección de su elección a cada uno de bootsample. Esto le dará una idea acerca de cómo claramente un modelo es favorecida sobre el resto. Este va a ser computacionalmente caro (para decir lo menos), pero un pequeño número de iteraciones debe ser suficiente para sus fines, que debo pensar de 100 sería suficiente.

3voto

Matt Mitchell Puntos 17005

En mi mente, validación cruzada es un estándar de oro bastante sólido para hacer las comparaciones que se centran en las capacidades de modelos para predecir nuevos datos. Dicho esto, para el caso GLM, AIC ha sido demostrada (Stone, 1977) que asintóticamente equivalente a validación cruzada, así que si estás bien con suposición asintótica, usted puede ahorrarse algunos calcular tiempo yendo con AIC en lugar de computación la validación cruzada completa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X