En el texto que he leído lo siguiente:
Estoy confundido sobre las dimensiones de la parcialidad de vector. ¿Cómo se puede añadir un(m,1)
vector a un(1, p)
vector? Es w0
forma correctamente? O debe w1
ser en forma de (n, P)
a cuenta P
clases, y la hemos transmitido w0
?
Nota: asumo w1
debe (n, P)
, de modo que nuestro multiplicación de la matriz de los rendimientos de una fila de no normalizados logits para cada clase de predicción para cada observación. Entonces ¿tiene sentido agregar por un sesgo de clase y de difusión que para el número de muestras en nuestros datos?
Me siento como un tonto por preguntar siquiera, pero caminando por el ejemplo que yo no podía conciliar...