1 votos

¿Cómo verificar que una nueva variable de entrada aporta una nueva significación estadística en comparación con las variables de entrada existentes?

Tengo una red neuronal que da dos variables X1 y X2 para cada punto de datos. Para cada punto de datos, también hay una variable objetivo Y que me interesa predecir (para ser más precisos, mostrar la significación estadística) con X1 y X2.

X1 y X2 se aprenden de un gran conjunto de datos y, por tanto, de una gran cantidad. Pero las muestras para Y son muy escasas. Además, Y sólo puede tener unos 5 valores posibles para cada observación, por lo que tiene mucho ruido, y la correlación de Y con X1 y/o X2 no es tan evidente.

Cuando hago una regresión lineal con X1 e Y (no con X2), da un R-cuadrado de sólo el 6,8%. Sin embargo, la prueba P para X1 da un valor de 0,000, por lo que creo que se puede decir que X1 es estadísticamente significativo. Estoy utilizando el modelo OLS de statsmodel biblioteca de python aquí, con término constante.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.068
Model:                            OLS   Adj. R-squared:                  0.067
Method:                 Least Squares   F-statistic:                     50.19
Date:                Wed, 21 Apr 2021   Prob (F-statistic):           3.49e-12
Time:                        14:14:54   Log-Likelihood:                -774.96
No. Observations:                 685   AIC:                             1554.
Df Residuals:                     683   BIC:                             1563.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.2663      0.086    -14.752      0.000      -1.435      -1.098
x1             0.7582      0.107      7.084      0.000       0.548       0.968
==============================================================================
Omnibus:                       71.552   Durbin-Watson:                   1.990
Prob(Omnibus):                  0.000   Jarque-Bera (JB):               92.665
Skew:                          -0.897   Prob(JB):                     7.55e-21
Kurtosis:                       3.173   Cond. No.                         5.96
==============================================================================

El objetivo para mí es demostrar que la inclusión del factor X2 añade más a la predicción de Y, o más exactamente, que X2 tiene una importancia estadística para la predicción de Y que es independiente de la de X1. Si se ejecuta el modelo OLS con X1 y X2, se obtiene un aumento del R-cuadrado hasta el 7,5%. La prueba P da un valor de 0,026 para X2, lo que demuestra que X2 es estadísticamente significativo.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.075
Model:                            OLS   Adj. R-squared:                  0.072
Method:                 Least Squares   F-statistic:                     27.73
Date:                Wed, 21 Apr 2021   Prob (F-statistic):           2.65e-12
Time:                        13:51:51   Log-Likelihood:                -772.47
No. Observations:                 685   AIC:                             1551.
Df Residuals:                     682   BIC:                             1565.
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.9651      0.160     -6.036      0.000      -1.279      -0.651
x1             0.5900      0.131      4.515      0.000       0.333       0.847
x2            -0.4472      0.201     -2.230      0.026      -0.841      -0.054
==============================================================================
Omnibus:                       68.319   Durbin-Watson:                   1.996
Prob(Omnibus):                  0.000   Jarque-Bera (JB):               87.632
Skew:                          -0.874   Prob(JB):                     9.35e-20
Kurtosis:                       3.118   Cond. No.                         12.3
==============================================================================

Aquí es donde estoy atascado. Quiero demostrar que (i) X1 y X2 únicamente a partir de los datos disponibles en gran medida hace un trabajo suficiente en la predicción de Y, y lo que es más importante para mí, (ii) X2 contribuye a la predicción de Y en formas que X1 no puede hacer.

Para (ii) la prueba P sobre X2 no es significativa. Por ejemplo, si X2 fuera exactamente igual a X1, el valor p para X2 también habría sido igual a 0,000, por lo que X2 es significativo pero no hace algo nuevo aparte de X1. Aun así, un aumento del R-cuadrado en un 0,7% tampoco me parece suficiente. Un caso ideal para mí es cuando X1 y X2 son independientes, e Y = a X1 + b X2 para algunas constantes a y b, de modo que cada uno contribuye a Y de forma independiente. ¿Habría alguna forma de mostrar lo cerca que está la situación del "caso ideal" que acabo de describir?

Me disculpo si la pregunta es confusa de entender o si estoy haciendo preguntas equivocadas. Vengo de un fondo de CS con no mucha experiencia en la estadística, por lo que no estoy entendiendo exactamente lo que estoy pidiendo y podría tener una forma poco ortodoxa de describir el problema. Sería estupendo si pudiese dar forma a la pregunta de una manera más precisa, si es posible.

4voto

icelava Puntos 548

La forma "estadística" de ver esto es Análisis de la varianza , también conocido como ANOVA. Esencialmente, usted tiene dos modelos para $Y$ El modelo 1 explica $Y$ a través de $X_1$ solo, el modelo 2 explica $Y$ a través de ambos $X_1$ y $X_2$ . Como los modelos son anidado Los residuos del modelo 2 serán, como mucho, tan grandes como los del modelo 1, y casi seguro que serán menores. Bajo ciertos supuestos, la reducción del error cuadrático medio sigue una distribución conocida, la $F$ distribución. Puede utilizar una tabla ANOVA para evaluar si el modelo 2 explica significativamente más varianza que el modelo 1. Puede utilizar el Funcionalidad de ANOVA en statsmodels para OLS, y si tiene acceso a los ajustes de su red, puede calcular a mano las sumas de cuadrados necesarias.

Sin embargo, usted escribe que está pensando en términos de "predicción". Entonces no utilizaría el ANOVA, que funciona exclusivamente en términos de ajuste en la muestra no predecir. Para este último caso, podría dividir los datos en una muestra de entrenamiento y otra de prueba, ajustar ambos modelos y utilizar cada uno de ellos para predecir en la muestra de prueba. A continuación, calcule los errores al cuadrado y realice una prueba de Diebold-Mariano para comprobar si el poder predictivo del modelo 2 es superior al del modelo 1.

En cualquier caso, tenga en cuenta que probablemente tenga un montón de datos, por lo que incluso pequeñas diferencias en la precisión de ajuste/predicción serán estadísticamente significativas, independientemente de que sean o no significativas desde el punto de vista clínico/comercial. Por lo tanto, también hay que fijarse en los tamaños del efecto, es decir, en las reducciones de los errores medios al cuadrado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X