Respuesta corta:
-
Si tenemos un gran conjunto de datos de prueba (digamos 1 millón de muestras), la "interpretación probabilística" no nos aporta mucho valor. Porque el rendimiento en datos de prueba grandes lo dice todo.
-
Si tenemos un pequeño conjunto de datos de prueba (digamos 1000 muestras), la interpretación probabilística nos dice cómo de fiable es el modelo. En otras palabras, cuál es la probabilidad de que el modelo y los coeficientes estimados sean significativos. O simplemente estamos captando algo de ruido en los datos.
Respuesta larga:
Por tu notación, supongo que aprendiste la regresión lineal y la regresión logística de machine learning (y puede que del curso de Coursera Andrew NG) pero no de estadística.
Si los aprendiste en Coursera, lo que aprendiste es realmente una versión simplificada del método lineal. Se enfatiza mucho en la optimización. Andrew NG está enseñando debe conocer y trucos muy prácticos para que la gente a aprender más rápido, sin demasiados detalles, y se puede aplicar en el problema del mundo real.
De hecho, la regresión lineal y la regresión logística se inventaron con mucha más facilidad antes de la era del aprendizaje automático. Los mínimos cuadrados se remontan a doscientos años atrás. En esa época, ni siquiera existían los ordenadores. Los estadísticos trabajan con lápiz y papel para desarrollar estos métodos. Además, durante ese tiempo, no tenemos demasiados datos. Los famosos datos del IRIS en el documento de 1936 sólo tienen 150 puntos de datos.
Normalmente, menos datos significa más matemáticas: es fácil calcular el coeficiente, pero ¿y qué? la gente también quiere decir "qué buenos" son mis coeficientes en ausencia de grandes datos de prueba. Por lo tanto, hay muchos supuestos y propiedades muy agradables en la regresión lineal y la regresión logística. Todas estas bonitas propiedades se derivan de la "interpretación probabilística".
Históricamente, cuando la gente utiliza estos métodos, tiene que comprobar cuidadosamente los supuestos para asegurarse de que funciona correctamente. Esa es la mentalidad de los estadísticos. Hoy en día, con los grandes datos, mucha gente intenta hacer el camino más corto. En lugar de derivar propiedades de las matemáticas, intentan utilizarlas con datos de prueba grandes y fiables. La idea es que si los datos de prueba son enormes, no necesito "estimar" la fiabilidad de mi modelo.
podemos rebajar para derivar las propiedades matemáticas, como el intervalo de confianza, el valor p, etc. Porque es fácil comprobar si el modelo funciona en el mundo real sin demasiadas matemáticas.
Pero con menos datos, es muy importante hacerse una idea de lo buenos que somos estadísticamente dados los parámetros estimados.