- La estimación de modelos de regresión lineal, mediante MCO, y el ajuste de distribuciones pueden realizarse utilizando el mismo método, la estimación de máxima verosimilitud (MLE) y la estimación de máxima verosimilitud (MLE). Likelihood Estimation (MLE), y
Sí, tiene razón. Al utilizar la máxima verosimilitud, siempre estamos ajustando algún tipo de distribución a los datos. Sin embargo, la diferencia está entre tipos particulares de distribuciones que estamos encajando.
Sur modelo de regresión estamos prediciendo el media condicional (pero a veces alternativamente otras cosas como mediana, cuantiles, moda) de una variable ( $X_1$ en su notación) dado el otras variables ( $X_2,X_3,\dots,X_k$ ), donde la relación tiene una forma funcional $f$ :
$$ E(X_1|X_2,X_3,\dots,X_k) = f(X_2,X_3,\dots,X_k) $$
así, por ejemplo, con la regresión lineal la distribución supuesta es normal, entonces tenemos
$$ X_1 \sim \mathsf{Normal}(\,f(X_2,X_3,\dots,X_k),\; \sigma^2\,) $$
donde, para la regresión lineal $f$ es una función lineal
$$ f(X_2,X_3,\dots,X_k) = \beta_0 + \beta_1X_2 + \beta_2X_3 + \ldots + \beta_{k-1}X_k $$
pero no tiene por qué ser lineal en otros tipos de modelos de regresión.
Por otra parte, cuando la gente "sólo" ajusta la distribución, suele referirse con ello a la búsqueda de parámetros desconocidos de una conjunta distribución de algunas variables, por ejemplo si utilizamos de nuevo la distribución normal (multivariante), sería algo como
$$ (X_1,X_2,X_3,\dots,X_k) \sim \mathsf{MVN}(\boldsymbol{\mu}, \boldsymbol{\Sigma}) $$
Nótese la diferencia, que aquí no asumir ninguna forma funcional específica de relación entre $X_1$ y $X_2,X_3,\dots,X_k$ . En la regresión, elegimos la relación funcional que asumimos para las variables, mientras que al ajustar la distribución, la relación se rige por la elección de la distribución (por ejemplo, en la distribución normal multivariante, se rige por la matriz de covarianza).
- Después de ajustar una distribución (digamos la Normal) y obtener los parámetros para su pdf, se puede calcular la condicional condicional, $P(X_1 | X_2, X_3, \ldots , X_k)$ , a predecir valores para $X_1$ en función de los nuevos valores de $X_2, \ldots X_k$ ,
¿Qué quiere decir aquí con "nuevos valores"? El modelo de regresión podría ser algo como
$$ \mathsf{salary}_i = \beta_0 + \beta_1 \mathsf{age}_i + \beta_2 \mathsf{gender}_i + \varepsilon_i $$
Así que si sus datos consistieran en $i=1,2,\dots,n$ individuos, entonces se podrían hacer predicciones sobre el salario para $n+1$ individual, eso no se observó en sus datos. Sin embargo, si eligió otra característica para el modelo, por ejemplo $\mathsf{height}_i$ entonces el modelo de regresión estimado no te dice nada sobre la relación entre altura y salario. Yo no llamaría a las características como "nuevos valores" porque sería muy engañoso.
de forma muy similar a como se podría g $X_1$ mediante la siguiente regresión $$X_1 = \beta_0 + \beta_1X_2 + \beta_2X_3 + \ldots + \beta_{k-1}X_k + \epsilon\, ;$$ ambos métodos permiten hacer predicciones con datos nuevos, después de realizar primero realizar algún tipo de ajuste.
Tienes razón en que si conocemos las distribuciones conjuntas $p(X_1,X_2,X_3,\dots,X_k)$ y $p(X_2,X_3,\dots,X_k)$ podemos estimar el distribución condicional ,
$$ p(X_1|X_2,X_3,\dots,X_k) = \frac{p(X_1,X_2,X_3,\dots,X_k)}{p(X_2,X_3,\dots,X_k)} $$
o expectativas condicionales, etc. Sin embargo, la diferencia es que con la regresión esto está disponible de inmediato, mientras que en el caso de la distribución "bruta", tendría que calcularlos a partir de la distribución (por ejemplo, tomar integrales o realizar una simulación Monte Carlo).
Observe también que con la regresión no puede "volver" a la distribución conjunta, ni estimar otros tipos de distribuciones condicionales (o expectativas). Así que la regresión es un caso simplificado. "Simplificado" no es malo en este caso, por ejemplo, ser simplificado significa que necesitaría muchos menos datos para obtener una estimación fiable en comparación con un modelo más complicado.