Deje $N$ ser el número de observaciones y $K$ el número de variables explicativas.
$X$ es en realidad un $N\!\times\!K$ matriz. Sólo cuando nos fijamos en una sola observación, denotamos cada observación generalmente como $x_i^T$ - un vector fila de variables explicativas de una observación particular escalar que multiplica con el $K\!\times\!1$ vector columna $\beta$. Además, $Y$ $N\!\times\!1$ vector columna, sosteniendo todas las observaciones $Y_n$.
Ahora, una de dos dimensiones hyperplane se extendería entre el vector $Y$ y una(!) vector columna de $X$. Recuerde que $X$ $N\!\times\!K$ matriz, por lo que cada variable explicativa es representado por exactamente un vector columna de la matriz $X$. Si tenemos una sola variable explicativa, no interceptar y $Y$, todos los puntos de datos están situados a lo largo de los 2 plano dimensional generado por $Y$$X$.
Para una regresión múltiple, el número de dimensiones que en total hace el hyperplane entre el $Y$ y la matriz$X$? Respuesta: Ya hemos $K$ vectores columna de las variables explicativas en $X$, debemos tener un $K\!+\!1$ dimensiones hyperplane.
Por lo general, en una matriz de configuración, la regresión requiere de un constante interceptar a ser imparcial para un análisis razonable de que el coeficiente de la pendiente. Para acomodar este truco, nos de la fuerza de una columna de la matriz $X$ a ser sólo consiste en "$1$s". En este caso, el estimador $\beta_1$ se encuentra solo, multiplicados por una constante para cada observación en lugar de una al azar variable explicativa. El coeficiente de $\beta_1$ representa por lo tanto el valor esperado de $Y$ que $x_{1i}$ se mantiene fijo con valor 1 y todas las demás variables son iguales a cero. Por lo tanto el $K\!+\!1$-dimensiones hyperplane se reduce en una dimensión a un $K$-dimensional en el subespacio, y $\beta_1$ corresponde a la "interceptación" de esta $K$-plano dimensional.
En la matriz de configuración de su siempre recomendable tener una mirada en el simple caso de dos dimensiones, para ver si podemos encontrar una intuición de nuestros resultados. Aquí, la forma más fácil es pensar en el simple regresión con dos variables explicativas:
$$
y_i=\beta_1x_{1i} + \beta_2x_{2i} +u_i
$$
o, alternativamente, expresado en el álgebra Matricial: $Y=X\beta +u$ donde $X$ $N\!\times\!2$ matriz.
$<Y,X>$ abarca las 3 dimensiones hyperplane.
Ahora si se nos fuerza a todos los $x_1$ todos los $1$, obtenemos:
$$
y_i=\beta_{1i} + \beta_2x_{2i} + u_i
$$
que es nuestro habitual de regresión simple que se puede representar en dos dimensiones $X,\ Y$ de la parcela. Tenga en cuenta que $<Y,X>$ ahora se ha reducido a dos dimensiones de la línea - un subconjunto de los originalmente de 3 dimensiones hyperplane. El coeficiente de $\beta_1$ corresponde a la intersección de la línea de corte en $x_{2i}=0$.
Puede ser demostrado que también pasa a través de $<0,\beta_1>$ cuando la constante es incluido. Si dejamos fuera la constante de la regresión hyperplane siempre pasa trivialmente a través de $<0,0>$ - sin duda. Esto se generaliza en múltiples dimensiones, como se verá más adelante cuando se derivan $\beta$:
$$
(X X)\beta=x' \implica (X X)\beta-X i=0 \implica X'(y-X\beta)=0.
$$
Desde $X$ tiene rango completo, por definición, $y-X\beta=0$, y así la regresión pasa por el origen, si dejamos fuera de la intersección.
(Edit: me acabo de dar cuenta que para su segunda pregunta, este es exactamente el opuesto de ustedes han escrito regading inclusión o exclusión de la constante. Sin embargo, ya he ideado la solución aquí y me quedo corrija si estoy equivocado en eso.)
Sé que la representación de la matriz de regresión puede ser bastante confuso al principio, pero finalmente se simplifica mucho cuando los derivados más complejos en álgebra. Espero que esto ayude un poco.