26 votos

¿Por qué mayúsculas para $X$ y minúsculas para $y$?

¿Por qué la mayoría de las veces (en muchos sitios web, artículos o demostraciones) la variable de característica (columnas) está representada por una 'X' en mayúsculas mientras que la variable objetivo es una 'y' en minúsculas?

Me parece más un estándar de codificación.

X = df.iloc[:, :-1]
y = df.iloc[:, -1]

Solo por curiosidad, porque casi nunca uso solo una letra para representar una variable que almacena datos significativos.

30voto

usεr11852 Puntos 5514

La pregunta sobre por qué $X$ e $y$ son opciones populares en las nociones matemáticas ha sido respondida en el sitio web de Historia de la Ciencia y las Matemáticas SE: ¿Por qué X e Y son comúnmente usados como marcadores matemáticos? (En resumen: ¡porque Descartes lo dijo!)

En términos de Álgebra Lineal, es extremadamente común usar letras latinas mayúsculas para matrices (por ejemplo, matriz de diseño $X$) y letras latinas minúsculas para vectores (vector de respuesta $y$). Los libros de texto estándar sobre el uso de matrices en Estadística (por ejemplo, Álgebra Matricial Útil para Estadística de Searle, Álgebra Matricial Desde la Perspectiva de un Estadístico de Harville y Álgebra Matricial: Teoría, Cálculos y Aplicaciones en Estadística de Gentle) utilizan esta convención también, por lo que se ha convertido en una forma estándar de denotar las cosas.

7voto

Isabella Ghement Puntos 9964

Antes de recopilar cualquier valor de datos sobre las variables característica y objetivo, estas variables pueden considerarse como variables aleatorias siempre que se utilice un mecanismo aleatorio para seleccionar a los sujetos que generarán estos valores. En ese caso, la notación correcta para estas variables es Y y X (es decir, letras mayúsculas para ambas).

Recuerde que el valor de una variable aleatoria es desconocido antes de recopilar los datos, aunque su comportamiento a largo plazo se puede predecir utilizando leyes de probabilidad. Sin embargo, una vez que recopilamos los datos, ese valor se vuelve conocido.

Después de recopilar todos los valores de datos deseados sobre las variables característica y objetivo, puede utilizar la notación en minúsculas para denotar la colección de valores de datos correspondientes a la variable objetivo (y) y las variables de característica (x). Si tiene una sola variable de característica, x es un vector de valores de datos. Si tiene varias variables de característica, x es una matriz de valores de datos, con una columna por variable de característica. Por lo general, y es un vector de valores de datos.

Entonces, la notación en mayúsculas se refiere a "aleatorio (por lo tanto, desconocido)", mientras que la notación en minúsculas se refiere a "conocido". Alternativamente, la notación en mayúsculas se refiere a "antes de recopilar los datos", mientras que la notación en minúsculas se refiere a "después de recopilar los datos".

Lamentablemente, la literatura no es en absoluto consistente en el uso de esta notación, por eso se puede ver la notación (y,X) que mencionas en tu pregunta.

2voto

Xzila Puntos 28

Para entender cuándo usar minúsculas o mayúsculas, necesitamos saber qué se representa en X_train o X_test. Es una letra mayúscula X para representar una matriz 2-D. Y para y_train y y_test, es una letra minúscula y para representar un vector 1-D.

Matemáticamente, es una notación común para Álgebra Lineal usar letras latinas mayúsculas para matrices (por ejemplo la matriz X) y letras latinas minúsculas para vectores (vector y).

En ciencia de datos, la matriz de características X es una colección de muchas columnas de valores de características. Por ejemplo, un df con 1 objetivo, 20 características y 1000 registros de datos tendrá una forma de (1000, 21). Por lo tanto, definiremos la matriz de características X con una forma de (1000, 20). Mientras que la etiqueta de destino y es una columna de valores con una forma de (1000, 1).

Después de aplicar train_test_split() en X y y con test_size=0.25, esperaría:
X_train sea una matriz 2-D (750, 20)
y_train sea un vector 1-D (750, 1)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X