30 votos

¿Cuáles son las notaciones clásicas en estadística, álgebra lineal y aprendizaje automático? Y ¿cuáles son las conexiones entre estas notaciones?

Cuando leemos un libro, la comprensión de las notaciones desempeña un papel muy importante para entender el contenido. Desgraciadamente, las diferentes comunidades tienen diferentes convenciones de notación para la formulación del modelo y el problema de optimización. ¿Podría alguien resumir algunas notaciones de formulación aquí y proporcionar posibles razones?

Voy a poner un ejemplo: En la literatura del álgebra lineal, el libro clásico es el de Strang introducción al álgebra lineal . La notación más utilizada en el libro es

$$ A x=b$$

Donde $A$ es un matriz de coeficientes , $x$ es el variables a resolver y $b$ es un vector en lado derecho de la ecuación . El razón el libro elige esta notación es el objetivo principal del álgebra lineal es resolver un sistema lineal y averiguar cuál es el vector $x$ . Dada esta formulación, el problema de optimización OLS es

$$ \underset{x}{\text{minimize}}~~ \|A x-b\|^2$$

En la estadística o el aprendizaje de la máquina alfabetizada (de libro Elementos de aprendizaje estadístico ) la gente utiliza una notación diferente para representar la misma cosa:

$$X \beta= y$$

Donde $X$ es el matriz de datos , $\beta$ es el coeficientes o pesos a aprender el aprendizaje , $y$ es la respuesta. El razón la gente utiliza esto es porque la gente en la estadística o la comunidad de aprendizaje de la máquina es impulsado por los datos Así que datos y respuesta son lo más interesante para ellos, donde utilizan $X$ y $y$ para representar.

Ahora podemos ver toda la confusión posible puede estar allí: $A$ en la primera ecuación es igual que $X$ en la segunda ecuación. Y en la segunda ecuación $X$ no es algo que deba ser resuelto. También para los términos: $A$ es la matriz de coeficientes en álgebra lineal, pero son datos en estadística. $\beta$ también se llama "coeficientes".

Además, mencioné $X \beta=y$ no es exactamente lo que la gente utiliza ampliamente en el aprendizaje automático, la gente utiliza un medio vectorizado versión que resume sobre todos los puntos de datos. Por ejemplo

$$ \min \sum_i \text{L}(y_i,f(x_i)) $$

Creo que la razón de esto es que es bueno cuando se habla del descenso de gradiente estocástico y otras funciones de pérdida diferentes. Además, la notación matricial concisa desaparece para otros problemas distintos de la regresión lineal.

Notación matricial para la regresión logística

¿Podría alguien dar más resúmenes sobre las anotaciones que cruzan diferentes literaturas? Espero que las respuestas inteligentes a esta pregunta puedan ser utilizadas como una buena referencia para la gente que lee libros que cruzan diferentes literaturas.

por favor, no te limites a mi ejemplo $A x=b$ y $X \beta=y$ . Hay muchos otros. Por ejemplo

¿Por qué hay dos formulaciones / notaciones de pérdidas logísticas diferentes?

5 votos

La notación no existe realmente como una especie de verdad verificable externamente. Es un lenguaje, por lo que es intrínsecamente contextual y se puede redefinir. Si escribo x*b y digo que significa matriz x producto punto vector b, simplemente lo es, con o sin negrita.

3 votos

Yo diría que $Ax = b$ y $X \beta = y$ tienen una notación equivalente. Sólo han cambiado los nombres de las variables. En general, no encontrará una denominación coherente de las variables de un documento a otro, incluso dentro de un mismo campo.

0 votos

@GeneralAbrial Gracias por el comentario. Estoy totalmente de acuerdo en que la notación es contextual y depende de la redefinición, pero yo preguntaba convenciones Por ejemplo, cuando la gente escribe $\mathbf X^T \mathbf X$ los demás saben inmediatamente de qué se trata.

22voto

Martin Robins Puntos 1893

Tal vez una pregunta relacionada sea: "¿Qué palabras se utilizan en las diferentes lenguas y cuáles son las conexiones entre estas palabras?"

La notación es, en cierto sentido, como el lenguaje:

  • Algunas palabras tienen significados específicos de la región; otras se entienden de forma general.
  • Al igual que las naciones poderosas difunden su lengua, los campos exitosos y los investigadores influyentes difunden su notación.
  • El lenguaje evoluciona con el tiempo: la lengua tiene una mezcla de orígenes históricos e influencia moderna.

Su pregunta específica...

  • No estoy de acuerdo con su afirmación de que los dos siguen "una notación completamente diferente". Ambos $X\boldsymbol{\beta} = \boldsymbol{y}$ y $A\mathbf{x} = \mathbf{b}$ utilizar letras mayúsculas para denotar las matrices. No son que diferente.
  • El aprendizaje automático es altamente relacionados con la estadística, un campo amplio y maduro. Utilizando $X$ para representar la matriz de datos es, casi con toda seguridad, la convención más legible y estándar a seguir. Aunque $A\mathbf{x} = \mathbf{b}$ es estándar para resolver sistemas lineales, es decir no cómo la gente que hace estadística escribe las ecuaciones normales. Si intentas hacer eso, tu audiencia estará más confundida. Cuando en Roma...
  • En cierto sentido, el núcleo de su pregunta revisada es: "¿Cuáles son los orígenes históricos de las estadísticas que utilizan la letra $x$ para representar datos y la letra $\beta$ para representar la variable desconocida que hay que resolver".
    • Esta es una pregunta para los historiadores de la estadística. Buscando brevemente, veo que el influyente estadístico británico y académico de Cambridge Udny Yule utilizaba $x$ para representar los datos en su Introducción a la teoría de la estadística (1911). Escribió una ecuación de regresión como $x_1 = a + bx_2$ con el objetivo de mínimos cuadrados de minimizar $\sum\left( x_1 - a - bx_2\right)^2$ y con solución $b_{12} = \frac{\sum x_1x_2}{\sum x_2^2}$ . Al menos se remonta a entonces...
    • El aún más influyente R.A. Fisher utilizó $y$ para la variable dependiente y $x$ para la variable independiente en su libro de 1925 Métodos estadísticos para investigadores . (Sugerencia a @Nick Cox por proporcionar el enlace con la información).

Una buena notación es como un buen lenguaje. Evite la jerga específica del sector siempre que sea posible. Escriba en el equivalente matemático del inglés de la BBC, un lenguaje que sea comprensible para la mayoría de los que hablan inglés. Siempre que sea posible, hay que escribir con una notación que sea clara y que se entienda ampliamente.

1 votos

Este historiador aficionado a la estadística puede proporcionar una corrección pedante de que Yule nunca fue profesor... Lo más interesante es que hay un sitio web pertinente en jeff560.tripod.com/stat.html, pero parece que no funciona actualmente.

2 votos

math.hawaii.edu/~tom/history/stat.html parece ser una copia. Las convenciones sistemáticas, como el griego para los parámetros y el romano para las variables, entiendo que se deben en gran medida a R.A. Fisher, pero hay muchos que se resisten, por ejemplo $\chi^2$ para la estadística chi-cuadrado de la muestra no muestra signos de desaparecer.

0 votos

@NickCox Fantástico enlace jeff560.tripod.com/stat.html ¡(arriba para mí...) que hace referencia a Yule y R.A. Fisher! Los primeros orígenes matemáticos de la regresión se remontan evidentemente a Gauss y Laplace, pero en mi completa búsqueda de aficionado, parecían utilizar una notación diferente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X