14 votos

¿Cómo puede un vector de variables representa un hiperplano?

Estoy leyendo Elementos de Aprendizaje Estadístico y en la página 12 (sección 2.3) un modelo lineal se escribe como:

$$\widehat{Y} = X^{T} \widehat{\beta}$$

...donde $X^{T}$ es la transpuesta de un vector columna de los predictores independientes de variables / entradas. (Estados anteriores "todos los vectores que se asume como vectores columna" así que no esta de hacer $X^{T}$ un vector de fila y $\widehat{\beta}$ un vector columna?)

Incluido en $X$ "$1$ " a ser multiplicada por el coeficiente correspondiente dando la (constante) de intercepción.

Va a decir:

En el $(p + 1)$-dimensiones de la entrada–salida del espacio, $(X,\ \widehat{Y})$ representa un hyperplane. Si la constante se incluye en $X$, entonces el hyperplane incluye el origen y es un subespacio; si no, es un afín conjunto de corte de la $Y$-eje en el punto $(0,\ \widehat{\beta_0})$.

¿"$(X,\ \widehat{Y})$" Describir un vector formado por la concatenación de los predictores, la intersección del "$1$" e $\widehat{Y}$? Y por qué no con un "$1$ " $X$ de la fuerza de la hyperplane a pasar por el origen, seguramente, que "$1$" es ser multiplicado por $\widehat{\beta_0}$?

Yo no estoy logrando entender el libro; cualquier ayuda / consejo / enlaces a recursos sería muy apreciado.

6voto

Majte Puntos 847

Deje $N$ ser el número de observaciones y $K$ el número de variables explicativas.

$X$ es en realidad un $N\!\times\!K$ matriz. Sólo cuando nos fijamos en una sola observación, denotamos cada observación generalmente como $x_i^T$ - un vector fila de variables explicativas de una observación particular escalar que multiplica con el $K\!\times\!1$ vector columna $\beta$. Además, $Y$ $N\!\times\!1$ vector columna, sosteniendo todas las observaciones $Y_n$.

Ahora, una de dos dimensiones hyperplane se extendería entre el vector $Y$ y una(!) vector columna de $X$. Recuerde que $X$ $N\!\times\!K$ matriz, por lo que cada variable explicativa es representado por exactamente un vector columna de la matriz $X$. Si tenemos una sola variable explicativa, no interceptar y $Y$, todos los puntos de datos están situados a lo largo de los 2 plano dimensional generado por $Y$$X$.

Para una regresión múltiple, el número de dimensiones que en total hace el hyperplane entre el $Y$ y la matriz$X$? Respuesta: Ya hemos $K$ vectores columna de las variables explicativas en $X$, debemos tener un $K\!+\!1$ dimensiones hyperplane.

Por lo general, en una matriz de configuración, la regresión requiere de un constante interceptar a ser imparcial para un análisis razonable de que el coeficiente de la pendiente. Para acomodar este truco, nos de la fuerza de una columna de la matriz $X$ a ser sólo consiste en "$1$s". En este caso, el estimador $\beta_1$ se encuentra solo, multiplicados por una constante para cada observación en lugar de una al azar variable explicativa. El coeficiente de $\beta_1$ representa por lo tanto el valor esperado de $Y$ que $x_{1i}$ se mantiene fijo con valor 1 y todas las demás variables son iguales a cero. Por lo tanto el $K\!+\!1$-dimensiones hyperplane se reduce en una dimensión a un $K$-dimensional en el subespacio, y $\beta_1$ corresponde a la "interceptación" de esta $K$-plano dimensional.

En la matriz de configuración de su siempre recomendable tener una mirada en el simple caso de dos dimensiones, para ver si podemos encontrar una intuición de nuestros resultados. Aquí, la forma más fácil es pensar en el simple regresión con dos variables explicativas: $$ y_i=\beta_1x_{1i} + \beta_2x_{2i} +u_i $$ o, alternativamente, expresado en el álgebra Matricial: $Y=X\beta +u$ donde $X$ $N\!\times\!2$ matriz.

$<Y,X>$ abarca las 3 dimensiones hyperplane.

Ahora si se nos fuerza a todos los $x_1$ todos los $1$, obtenemos: $$ y_i=\beta_{1i} + \beta_2x_{2i} + u_i $$ que es nuestro habitual de regresión simple que se puede representar en dos dimensiones $X,\ Y$ de la parcela. Tenga en cuenta que $<Y,X>$ ahora se ha reducido a dos dimensiones de la línea - un subconjunto de los originalmente de 3 dimensiones hyperplane. El coeficiente de $\beta_1$ corresponde a la intersección de la línea de corte en $x_{2i}=0$.

Puede ser demostrado que también pasa a través de $<0,\beta_1>$ cuando la constante es incluido. Si dejamos fuera la constante de la regresión hyperplane siempre pasa trivialmente a través de $<0,0>$ - sin duda. Esto se generaliza en múltiples dimensiones, como se verá más adelante cuando se derivan $\beta$: $$ (X X)\beta=x' \implica (X X)\beta-X i=0 \implica X'(y-X\beta)=0. $$ Desde $X$ tiene rango completo, por definición, $y-X\beta=0$, y así la regresión pasa por el origen, si dejamos fuera de la intersección.

(Edit: me acabo de dar cuenta que para su segunda pregunta, este es exactamente el opuesto de ustedes han escrito regading inclusión o exclusión de la constante. Sin embargo, ya he ideado la solución aquí y me quedo corrija si estoy equivocado en eso.)

Sé que la representación de la matriz de regresión puede ser bastante confuso al principio, pero finalmente se simplifica mucho cuando los derivados más complejos en álgebra. Espero que esto ayude un poco.

2voto

aron Puntos 174

Creo que la manera de pensar de la misma es cambiar esa ecuación:

$$\widehat{Y} - X^{T} \widehat{\beta} = 0$$

La única manera que usted conseguirá la ecuación lineal para incluir el origen es hacer el % predicho $$\widehat{Y}$$ igual a la ordenada al origen. Y la manera de estimar ese valor debe incluir un término de intercepción en el modelo de regresión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X