Cuando leemos un libro, la comprensión de las notaciones desempeña un papel muy importante para entender el contenido. Desgraciadamente, las diferentes comunidades tienen diferentes convenciones de notación para la formulación del modelo y el problema de optimización. ¿Podría alguien resumir algunas notaciones de formulación aquí y proporcionar posibles razones?
Voy a poner un ejemplo: En la literatura del álgebra lineal, el libro clásico es el de Strang introducción al álgebra lineal . La notación más utilizada en el libro es
$$ A x=b$$
Donde $A$ es un matriz de coeficientes , $x$ es el variables a resolver y $b$ es un vector en lado derecho de la ecuación . El razón el libro elige esta notación es el objetivo principal del álgebra lineal es resolver un sistema lineal y averiguar cuál es el vector $x$ . Dada esta formulación, el problema de optimización OLS es
$$ \underset{x}{\text{minimize}}~~ \|A x-b\|^2$$
En la estadística o el aprendizaje de la máquina alfabetizada (de libro Elementos de aprendizaje estadístico ) la gente utiliza una notación diferente para representar la misma cosa:
$$X \beta= y$$
Donde $X$ es el matriz de datos , $\beta$ es el coeficientes o pesos a aprender el aprendizaje , $y$ es la respuesta. El razón la gente utiliza esto es porque la gente en la estadística o la comunidad de aprendizaje de la máquina es impulsado por los datos Así que datos y respuesta son lo más interesante para ellos, donde utilizan $X$ y $y$ para representar.
Ahora podemos ver toda la confusión posible puede estar allí: $A$ en la primera ecuación es igual que $X$ en la segunda ecuación. Y en la segunda ecuación $X$ no es algo que deba ser resuelto. También para los términos: $A$ es la matriz de coeficientes en álgebra lineal, pero son datos en estadística. $\beta$ también se llama "coeficientes".
Además, mencioné $X \beta=y$ no es exactamente lo que la gente utiliza ampliamente en el aprendizaje automático, la gente utiliza un medio vectorizado versión que resume sobre todos los puntos de datos. Por ejemplo
$$ \min \sum_i \text{L}(y_i,f(x_i)) $$
Creo que la razón de esto es que es bueno cuando se habla del descenso de gradiente estocástico y otras funciones de pérdida diferentes. Además, la notación matricial concisa desaparece para otros problemas distintos de la regresión lineal.
Notación matricial para la regresión logística
¿Podría alguien dar más resúmenes sobre las anotaciones que cruzan diferentes literaturas? Espero que las respuestas inteligentes a esta pregunta puedan ser utilizadas como una buena referencia para la gente que lee libros que cruzan diferentes literaturas.
por favor, no te limites a mi ejemplo $A x=b$ y $X \beta=y$ . Hay muchos otros. Por ejemplo
¿Por qué hay dos formulaciones / notaciones de pérdidas logísticas diferentes?
5 votos
La notación no existe realmente como una especie de verdad verificable externamente. Es un lenguaje, por lo que es intrínsecamente contextual y se puede redefinir. Si escribo x*b y digo que significa matriz x producto punto vector b, simplemente lo es, con o sin negrita.
3 votos
Yo diría que $Ax = b$ y $X \beta = y$ tienen una notación equivalente. Sólo han cambiado los nombres de las variables. En general, no encontrará una denominación coherente de las variables de un documento a otro, incluso dentro de un mismo campo.
0 votos
@GeneralAbrial Gracias por el comentario. Estoy totalmente de acuerdo en que la notación es contextual y depende de la redefinición, pero yo preguntaba convenciones Por ejemplo, cuando la gente escribe $\mathbf X^T \mathbf X$ los demás saben inmediatamente de qué se trata.
0 votos
Gracias por tu comentario @user20160, he editado mi pregunta para enfatizar $\mathbf A \mathbf x=\mathbf b$ y $\mathbf X \boldsymbol \beta=\mathbf y$ es sólo un ejemplo, y estoy buscando más ejemplos como éste.
0 votos
Tal vez es sólo la convención en las estadísticas para etiquetar los puntos como $(x_i,y_i)$ y estamos resolviendo los coeficientes $\beta_i$ en lugar de resolver para $x_i$ . El álgebra lineal se ocupa de las matrices, mientras que la estadística se ocupa de los datos.
6 votos
En este momento, esto tiene 10 upvotes, 150 vistas; parece ser un hilo valorado y útil. Además, tiene una respuesta con upvotes; así que no creo que sea demasiado amplio para ser respondido.
0 votos
Revisado, espero que la revisión no sea demasiado amplia
3 votos
Estoy de acuerdo con @gung, está claro que la comunidad tiene interés en esta cuestión. He nominado para la reapertura.
1 votos
Creo que es demasiado amplio para un q. regular - pero como ya es CW y algo popular, he añadido mi voto para reabrir a los cuatro que había.
0 votos
Tanto la estadística como el aprendizaje automático utilizan $x$ para las variables independientes y $y$ para el dependiente. Para el álgebra lineal normalmente diría lo mismo, pero ahí obviamente la evaluación "hacia adelante" de $\mathbf y $ (o $\mathbf b$ ) $= \mathbf A \mathbf x$ no es tan interesante como el problema inverso de resolver para $\mathbf x$ que es mucho más difícil y, por lo tanto, hay que hablar y pensar más.