Tengo una red neuronal que da dos variables X1 y X2 para cada punto de datos. Para cada punto de datos, también hay una variable objetivo Y que me interesa predecir (para ser más precisos, mostrar la significación estadística) con X1 y X2.
X1 y X2 se aprenden de un gran conjunto de datos y, por tanto, de una gran cantidad. Pero las muestras para Y son muy escasas. Además, Y sólo puede tener unos 5 valores posibles para cada observación, por lo que tiene mucho ruido, y la correlación de Y con X1 y/o X2 no es tan evidente.
Cuando hago una regresión lineal con X1 e Y (no con X2), da un R-cuadrado de sólo el 6,8%. Sin embargo, la prueba P para X1 da un valor de 0,000, por lo que creo que se puede decir que X1 es estadísticamente significativo. Estoy utilizando el modelo OLS de statsmodel
biblioteca de python aquí, con término constante.
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.068
Model: OLS Adj. R-squared: 0.067
Method: Least Squares F-statistic: 50.19
Date: Wed, 21 Apr 2021 Prob (F-statistic): 3.49e-12
Time: 14:14:54 Log-Likelihood: -774.96
No. Observations: 685 AIC: 1554.
Df Residuals: 683 BIC: 1563.
Df Model: 1
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const -1.2663 0.086 -14.752 0.000 -1.435 -1.098
x1 0.7582 0.107 7.084 0.000 0.548 0.968
==============================================================================
Omnibus: 71.552 Durbin-Watson: 1.990
Prob(Omnibus): 0.000 Jarque-Bera (JB): 92.665
Skew: -0.897 Prob(JB): 7.55e-21
Kurtosis: 3.173 Cond. No. 5.96
==============================================================================
El objetivo para mí es demostrar que la inclusión del factor X2 añade más a la predicción de Y, o más exactamente, que X2 tiene una importancia estadística para la predicción de Y que es independiente de la de X1. Si se ejecuta el modelo OLS con X1 y X2, se obtiene un aumento del R-cuadrado hasta el 7,5%. La prueba P da un valor de 0,026 para X2, lo que demuestra que X2 es estadísticamente significativo.
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.075
Model: OLS Adj. R-squared: 0.072
Method: Least Squares F-statistic: 27.73
Date: Wed, 21 Apr 2021 Prob (F-statistic): 2.65e-12
Time: 13:51:51 Log-Likelihood: -772.47
No. Observations: 685 AIC: 1551.
Df Residuals: 682 BIC: 1565.
Df Model: 2
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const -0.9651 0.160 -6.036 0.000 -1.279 -0.651
x1 0.5900 0.131 4.515 0.000 0.333 0.847
x2 -0.4472 0.201 -2.230 0.026 -0.841 -0.054
==============================================================================
Omnibus: 68.319 Durbin-Watson: 1.996
Prob(Omnibus): 0.000 Jarque-Bera (JB): 87.632
Skew: -0.874 Prob(JB): 9.35e-20
Kurtosis: 3.118 Cond. No. 12.3
==============================================================================
Aquí es donde estoy atascado. Quiero demostrar que (i) X1 y X2 únicamente a partir de los datos disponibles en gran medida hace un trabajo suficiente en la predicción de Y, y lo que es más importante para mí, (ii) X2 contribuye a la predicción de Y en formas que X1 no puede hacer.
Para (ii) la prueba P sobre X2 no es significativa. Por ejemplo, si X2 fuera exactamente igual a X1, el valor p para X2 también habría sido igual a 0,000, por lo que X2 es significativo pero no hace algo nuevo aparte de X1. Aun así, un aumento del R-cuadrado en un 0,7% tampoco me parece suficiente. Un caso ideal para mí es cuando X1 y X2 son independientes, e Y = a X1 + b X2 para algunas constantes a y b, de modo que cada uno contribuye a Y de forma independiente. ¿Habría alguna forma de mostrar lo cerca que está la situación del "caso ideal" que acabo de describir?
Me disculpo si la pregunta es confusa de entender o si estoy haciendo preguntas equivocadas. Vengo de un fondo de CS con no mucha experiencia en la estadística, por lo que no estoy entendiendo exactamente lo que estoy pidiendo y podría tener una forma poco ortodoxa de describir el problema. Sería estupendo si pudiese dar forma a la pregunta de una manera más precisa, si es posible.