6 votos

Valor predicho por el aprendizaje automático

Cuando ajustamos una regresión lineal generalizada (por ejemplo, regresión logística, regresión gamma) estamos estimando la media poblacional de Y dados los predictores $X$ ( es decir, $E(Y | X)$ ).

Cuando ajustamos un modelo de aprendizaje automático, como una RNA, una SVM o un árbol de decisión, ¿se sigue aplicando esta noción? En otras palabras, ¿estamos estimando el valor medio de la población de $Y$ ¿o no es aplicable esa idea y sólo estamos prediciendo "Y"?

ADD Tras la respuesta de Dikran:

I. ¿Qué aspecto de la teoría de un algoritmo de modelización predictiva nos dice que estamos modelizando E(Y|X) frente a sólo Y|X? ¿Es el uso de un término de error que sigue una determinada distribución? Por ejemplo, ¿qué tiene la RNA frente a un árbol de decisión que nos dice que la primera modela E(Y|X) mientras que la segunda está modelando Y|X?

II. ¿Existe alguna relación entre éstos y, por ejemplo, un intervalo de confianza frente a un intervalo de predicción en la regresión lineal?

12voto

John Richardson Puntos 1197

Hay muchos métodos de aprendizaje automático que sí pretenden estimar la media condicional de los datos, como las redes neuronales artificiales, pero también hay muchos que no lo hacen (como las SVM, los árboles de decisión, etc.). La motivación de la SVM es que es mejor resolver directamente el problema concreto que se plantea, en lugar de resolver un problema más general y simplificar el resultado. Por lo tanto, si sólo está interesado en una clasificación binaria duro, en principio, que debería ser más fácil que la estimación de la a-posteriori probabilidad de pertenencia a la clase y luego el umbral en 0,5. Si esto es cierto en la práctica es discutible, pero también en mi experiencia en la práctica a menudo se quiere el a-posteriori porque las frecuencias del conjunto de entrenamiento y de las clases operativas son diferentes o variables, o, de forma equivalente, los costes de clasificación errónea no se conocen en el momento del entrenamiento o son variables, o se necesita una opción de rechazo, etc. Por lo tanto, el hecho de que un método concreto estime la media condicional de la variable de respuesta depende de la tarea que el método pretenda resolver.

Obsérvese que para la SVM existe una alternativa que sí estima la media condicional de los datos, a saber, la regresión logística kernel para la clasificación y la regresión kernel ridge para los problemas de regresión.

La función de pérdida que se minimiza tiene mucho que ver con el hecho de que el modelo prediga la media condicional de la variable de respuesta, prácticamente cualquier método que minimice una pérdida de suma de errores al cuadrado (o entropía cruzada para la clasificación) tendrá esta propiedad, véase por ejemplo

Saerens, M., "Building cost functions minimizing to some summary statistics", IEEE Transactions on Neural Networks, volume: 11 , issue: 6, pages 1263 - 1271, 2000.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X