24 votos

En el aprendizaje de máquina, ¿por qué son los superíndices se utiliza en lugar de los subíndices?

Estoy tomando Andrew Ng curso de Aprendizaje de la Máquina a través de Coursera. Para las ecuaciones, los superíndices se utilizan en lugar de los subíndices. Por ejemplo, en la siguiente ecuación $x^{(i)}$ se utiliza en lugar de $x_i$:

$J(\theta_0, \theta_1) = \frac{1}{2m} \sum\limits_{i=1}^{m}{(h_\theta(x^{(i)}) - y^{(i)})^2}$

Al parecer, esta es una práctica común. Mi pregunta es ¿por qué utilizar superíndices en lugar de los subíndices? Los superíndices se utilizan ya para la exponenciación. Por supuesto que parecen ser capaces de diferenciar entre el superíndice y exponenciación casos de uso mediante el pago de atención a si o no entre paréntesis están presentes, pero aún así parece confuso.

32voto

zowens Puntos 1417

Si $x$ denota un vector $x \in \mathbb R^m$ $x_i$ es una notación estándar para el $i$-ésima coordenada de $x$, es decir, $$x = (x_1, x_2, \ldots, x_m)\in\mathbb R^m.$$

Si usted tiene una colección de $n$ dichos vectores, ¿cómo podría denotar una $i$-ésimo vector? Usted no puede escribir $x_i$, esto tiene otro significado estándar. Así que a veces la gente escribe $x^{(i)}$ y que se creo por qué Andrew Ng hace.

I. e.

\begin{equation} x^{(1)} = (x_1^{(1)}, x_2^{(1)}, \ldots, x_m^{(1)}) \in \mathbb R^m\\ x^{(2)} = (x_1^{(2)}, x_2^{(2)}, \ldots, x_m^{(2)}) \in \mathbb R^m\\ \ldots \\ x^{(n)} = (x_1^{(n)}, x_2^{(n)}, \ldots, x_m^{(n)}) \in \mathbb R^m.\\ \end{equation}

11voto

Cliff AB Puntos 3213

El uso de super secuencias de comandos, como tú has dicho, creo que es no muy común en la máquina de aprendizaje de la literatura. Tendría que revisar Ng notas del curso para confirmar, pero si se está poniendo en la que hay, yo diría que sería el origen de la proliferación de este tipo de notación. Esta es una posibilidad. De cualquier manera, no ser demasiado cruel, pero no creo que mucha de la línea de curso de los alumnos de la publicación de la literatura en el aprendizaje de máquina, por lo que esta notación no es muy común en la literatura actual. Después de todo, estos son los cursos de iniciación en el aprendizaje de máquina, no a nivel de Doctorado cursos.

Lo que es muy común con super secuencias de comandos es para denotar la iteración de un algoritmo utilizando super secuencias de comandos. Por ejemplo, usted podría escribir una iteración del método de Newton como

$ \theta^{(t+1)} = \theta^{(t)} - H(\theta^{(t)}) ^{-1} \nabla \theta^{(t)}$

donde $ H(\theta^{(t)}) $ es el de Hesse y $\nabla \theta^{(t)}$ es el gradiente.

(...sí, esta no es la mejor manera de aplicar el método de Newton debido a la inversión de la matriz Hessiana...)

Aquí, $\theta^{(t)}$ representa el valor de $\theta$ $t^{th}$ iteración. Este es el más común (pero ciertamente no el único) uso de super secuencias de comandos de la que soy consciente.

EDITAR: Para aclarar, en la pregunta original, parece sugerir que, en el ML de notación, $x^{(i)}$ es equivalente a la de estadística de la $x_i$ notación. En mi respuesta, he estado de que esto no es realmente frecuente en ML de la literatura. Esto es cierto. Sin embargo, como se ha señalado por @ameba, hay un montón de superíndice notación, en ML, de la literatura de los datos, pero en estos casos $x^{(i)}$ no suelen decir el $i^{th}$ observación de un único vector de $x$.

4voto

Aksakal Puntos 11351

Los superíndices se utilizan ya para la exponenciación.

En matemáticas los superíndices se utilizan a la izquierda y a la derecha, dependiendo del campo. La elección es siempre legado histórico, nada más. Quien primero se metió en el área de la convención de la utilización de sub - o sobre-escritos.

Dos ejemplos de ello. Los superíndices se utiliza para denotar derivados: $f(x)^{(n)}$

En el tensor de álgebra tanto a los super y los subíndices se utiliza mucho para la misma cosa como $R^i_i$ podría significar $i$ filas y $j$ columnas. Es muy expresivo: $T_i^k=R_i^jC_j^k$

También recuerdo que el uso de secuencias de comandos antes de letras (prescriptos) en la Física, por ejemplo,$^i_jB_k^l$. Creo que fue con los tensores.

Por lo tanto, la elección de los superíndices por Ng es puramente histórico. No hay ninguna razón real para su uso o no uso de ellos, o prefieren a los subíndices. En realidad, creo que aquí ML de personas están usando el tensor de la notación. Definitivamente están bien versados en el tema, por ejemplo, ver este papel.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X