12 votos

Espacio de datos, espacio de variables, espacio de observaciones, espacio de modelo (por ejemplo, en regresión lineal)

Supongamos que tenemos la matriz de datos $\mathbf{X}$, que es de tamaño $n$-por-$p$, y el vector de etiquetas $Y$, que es de tamaño $n$-por-uno. Aquí, cada fila de la matriz es una observación, y cada columna corresponde a una dimensión/variable. (supongamos que $n>p$)

Entonces, ¿qué significan space de datos, space de variable, space de observación, space de modelo?

¿Es el espacio generado por el vector columna, un espacio (degenerado) de $n$ dimensiones ya que tiene $n$ coordenadas siendo rango $p$, llamado space de variable ya que está generado por el vector de variables? ¿O se le llama space de observaciones ya que cada dimensión/coordenada corresponde a una observación?

¿Y qué pasa con el espacio generado por los vectores fila?

20voto

Uri Puntos 111

Estos términos aparecen en algunos libros sobre estadísticas multivariadas. Supongamos que tienes $n$ individuos por una matriz de datos de características cuantitativas de $p$ características. Luego puedes trazar a los individuos como puntos en el espacio donde los ejes son las características. Eso sería un diagrama de dispersión clásico, también conocido como gráfico de espacio variable. Decimos que la nube de individuos abarca el espacio definido por las características de los ejes.

También podrías concebir el diagrama de dispersión con los puntos siendo las variables y los ejes siendo los individuos. Absolutamente igual que antes, solo al revés. Eso sería un gráfico de espacio sujeto (o gráfico de espacio de observación) con las variables abarcándolo, y los individuos definiéndolo.

Nota que si (como a menudo) $n>p$, entonces, en el segundo caso, solo algunas $p$ dimensiones de las $n$ dimensiones son no redundantes; eso significa que puedes y debes dibujar los $p$ puntos de variables en un gráfico $p$-dimensional $^1$. Además, por tradición, los puntos de variables suelen estar conectados con el origen y así aparecen como vectores (flechas). Usamos la representación del espacio sujeto principalmente para mostrar relaciones entre variables, por lo tanto omitimos los ejes-sujetos y representamos los puntos como flechas, por conveniencia.

Si las características (columnas de la matriz de datos) fueron centradas antes de dibujar el gráfico de espacio sujeto, entonces los cosenos de los ángulos entre los vectores de variables son iguales a sus correlaciones de Pearson, mientras que las longitudes de los vectores son iguales a las normas de las variables (suma de las raíces cuadradas) o desviaciones estándar (si se dividen por los df).

El espacio variable y el espacio sujeto son dos caras de la misma moneda, son el mismo espacio analítico euclidiano, solo presentado de manera opuesta entre sí. Comparten las mismas propiedades, como los valores y vectores propios no nulos. Por lo tanto, es posible trazar tanto sujetos como variables lado a lado como puntos en el espacio de los ejes principales (u otra base ortogonal) de ese espacio analítico, - este gráfico conjunto se llama biplot. No sé exactamente qué significa el término "espacio de datos" - si significa algo específico, entonces supongo que es ese espacio analítico común del cual el espacio sujeto y el espacio variable son las dos hipóstasis.

enter image description here

Algunos enlaces locales:


$^1$ Imagina que tienes n=5 individuos y p=2 variables y de alguna manera lograste mágicamente dibujar los 2 puntos en el espacio de 5 dimensiones. Luego puedes rotar el subespacio definido por 2 de los ejes de tal manera que incrusten los 2 puntos (los cuales así abarcarán ese plano a partir de ahora); después, eliminas de manera segura los otros 3 ejes (dimensiones) ya que se han vuelto innecesarios. La posición de los dos puntos de variables relativos entre sí ha sido preservada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X