23 votos

Intervalo de predicción basado en la validación cruzada (CV)

En los libros de texto y youtube conferencias he aprendido mucho sobre el proceso iterativo de modelos tales como levantar, pero yo nunca vi nada acerca de la que se derive una predicción de intervalo.

La validación cruzada se utiliza para lo siguiente:

  • Selección de modelo: Probar diferentes modelos y elegir el que mejor se adapte. En el caso de impulsar, use CV para seleccionar parámetros de ajuste.
  • Modelo de evaluación: Estimar el rendimiento del modelo seleccionado

Varios parámetros importantes de la evaluación del modelo, uno de ellos es la espera del error de predicción. Validación cruzada proporciona una buena estimación del error de predicción, como bien se describe en el libro "Los Elementos de Aprendizaje Estadístico".

Pero, ¿cómo podemos usar la espera del error de predicción para construir un intervalo de predicción?

3voto

SWD Puntos 25

No estoy seguro de que estoy completamente entendido tu pregunta, pero voy a tomar una puñalada en ella.

En primer lugar, no estoy seguro de cómo habría que definir un intervalo de predicción para el modelo de selección, ya que, según entiendo, intervalos de predicción hacer algunos supuestos de distribución. En su lugar, podría derivar de la concentración de las desigualdades, que esencialmente vinculado a una variable aleatoria por su varianza para una cierta probabilidad. La concentración de las desigualdades se utilizan a través de la máquina de aprendizaje, incluyendo la avanzada de la teoría para impulsar. En este caso que desee limitar la generalización de error (el error en general, los puntos que no he visto) por su empírica de error (el error en el conjunto de pruebas), además de cierta complejidad plazo y un término que se refiere a la varianza.

Ahora necesito disipar un malentendido acerca de la validación cruzada que es muy común. La validación cruzada sólo le dará una estimación insesgada del error esperado de un modelo PARA un TAMAÑO de MUESTRA FIJO. La prueba de esto sólo funciona para dejar uno fuera de protocolo. Esta es en realidad bastante débil, ya que le da ninguna información con respecto a la varianza. Por otro lado, la validación cruzada devolverá un modelo que está cerca de la de minimización de riesgo estructural de la solución, que es la teoría mejor solución. Usted puede encontrar la prueba en el apéndice aquí: http://www.cns.nyu.edu/~rabadi/recursos/scat-150519.pdf

Entonces, ¿cómo derivar una generalización bound? (Recuerde que una generalización obligado es básicamente un intervalo de predicción acerca de la generalización de error para un modelo específico). Bien, estos límites son algoritmo específico. Por desgracia no es solo un libro de texto que pone los límites para todos los que comúnmente se utilizan algoritmos de aprendizaje de máquina (inclusive aumentar). El libro de las Fundaciones de Aprendizaje de Máquina (2012) por Mohri, Rostamizadeh, y Talwalkar. Para la conferencia de las diapositivas que cubren el material, usted puede encontrarlos en Mohri página web: http://www.cs.nyu.edu/~mohri/ml14/

Aunque los Elementos de Aprendizaje Estadístico es un importante y poco útil libro, no es muy riguroso y omite muchos detalles técnicos importantes con respecto a los algoritmos y completamente omite cualquier tipo de generalización de los límites. Fundamentos de la Máquina de Aprendizaje es el libro más completo para el aprendizaje de máquina (lo cual tiene sentido ya que fue escrito por algunos de los mejores en el campo). Sin embargo, el libro de texto es avanzado, por lo que sólo ten cuidado de los detalles técnicos.

La generalización obligado para impulsar pueden encontrarse (con prueba) aquí: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf

Espero que aquellos que son lo suficientemente punteros para responder a su pregunta. Estoy indeciso acerca de dar una respuesta completa porque va a tomar alrededor de 50 páginas para ir a través de todos los detalles necesarios, y mucho menos las discusiones preliminares...

Buena suerte!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X