Processing math: 100%

10 votos

Cómo ocultar un modelo de regresión al profesor (Regression Battleship)

Estoy trabajando en una tarea en la que mi profesor quiere que creemos un modelo de regresión verdadero, simulemos una muestra de datos y él va a intentar encontrar nuestro modelo de regresión verdadero utilizando algunas de las técnicas que hemos aprendido en clase. Asimismo, tendremos que hacer lo mismo con un conjunto de datos que nos ha dado.

Dice que ha sido capaz de producir un modelo bastante preciso para todos los intentos anteriores de intentar engañarlo. Ha habido algunos estudiantes que han creado algún modelo descabellado, pero podría decirse que ha sido capaz de producir un modelo más simple que era suficiente.

¿Cómo puedo desarrollar un modelo difícil de encontrar para él? ¿No quiero ser súper barato haciendo 4 términos cuadráticos, 3 observaciones y una varianza masiva? ¿Cómo puedo producir un conjunto de datos aparentemente inocuo que tenga un pequeño modelo difícil debajo de él?

Simplemente tiene 3 reglas que seguir:

  1. Su conjunto de datos debe tener una variable "Y" y 20 variables "X" etiquetadas como "Y", "X1", ..., "X20".

  2. Su variable de respuesta Y debe provenir de un modelo de regresión lineal que satisfaga:
    Yi=β0+β1Xi1++βp1Xi,p1+ϵi donde ϵiN(0,σ2) y p21 .

  3. Todo X -variables que se utilizaron para crear Y están contenidos en su conjunto de datos.

Hay que tener en cuenta que no es necesario que las 20 variables X estén en tu modelo real

Estaba pensando en utilizar algo como el Modelo Fama-French de 3 factores y hacer que empiece con los datos de las acciones (SPX y AAPL) y que tenga que transformar esas variables a los rendimientos compuestos de forma continua para oscurecerlo un poco más. Pero eso me deja con los valores perdidos en la primera observación y su serie temporal (que aún no hemos discutido en clase).

No estoy seguro de que este sea el lugar adecuado para publicar algo así. Me pareció que podría generar un buen debate.

Editar: Tampoco estoy preguntando por modelos "preconstruidos" en particular. Tengo más curiosidad por los temas/herramientas de la Estadística que permitirían a alguien hacer esto.

4 votos

Va a ser difícil si te limita a un modelo lineal...

3 votos

¿Cómo se evaluará la reconstrucción de su profesor?

2 votos

Sugerencia: mira multicolinealidad .

6voto

Aksakal Puntos 11351

Simplemente haz que el término de error sea mucho mayor que la parte explicada. Por ejemplo: yi=Xi1+ϵi , donde Xij=sin(i+j) , i=1..1000 y σ=1000000 . Por supuesto, tienes que recordar cuál era tu semilla, para poder demostrar a tu profesor que tenías razón y él estaba equivocado.

Buena suerte identificando la fase con esta relación ruido/señal.

0 votos

No parece que esto funcione para el criterio de victoria de CI, ¿verdad? Simplemente obtendremos CIs enormes que seguramente cubrirán el 1. Y cierta inestabilidad numérica, por supuesto.

0 votos

La inestabilidad no será un problema, todo lo que estoy haciendo es enterrar la señal en el ruido. Esto saldrá como puro ruido blanco.

4 votos

Esto fue considerado un modelo barato indeseable por el OP

4voto

Ran Kerry Puntos 1

Si su objetivo es recuperar el verdadero proceso de generación de datos que crea Y engañar a tu profesor es bastante trivial. Para darle un ejemplo, considere los disturbios ϵiN(0,1) y las siguientes ecuaciones estructurales:

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

Obsérvese la verdadera DGP de Y que sólo incluye X1 satisfacen trivialmente la condición 2. La condición 3 también se cumple, ya que X1 es la única variable para crear Y y usted está proporcionando X1 y X2 .

Sin embargo, no hay manera de que su profesor pueda decir si debe incluir sólo X1 sólo X2 o X1 y X2 para recuperar la verdadera DGP de Y (si acaba utilizando este ejemplo, cambie el número de las variables). Lo más probable es que te dé como respuesta la regresión con todas las variables, ya que todas aparecerán como predictores significativos. Puedes ampliar esto a 20 variables si lo deseas, tal vez quieras comprobar esta respuesta aquí y un La máquina de la paradoja de Simpson aquí.

Tenga en cuenta todas las expectativas condicionales E[Y|X1] , E[Y|X2] o E[Y|X1,X2] son expectativas condicionales correctamente especificadas, pero sólo E[Y|X1] refleja la verdadera DGP de Y . Así, después de que su profesor falle inevitablemente la tarea, podría argumentar que su objetivo era simplemente recuperar cualquier expectativa condicional, u obtener la mejor predicción de Y etc. Puedes argumentar que no fue lo que dijo, ya que afirma:

la variable Y debe vienen de un modelo de regresión lineal que satisfaga (...) las variables que se utilizado para crear Y (...) su modelo real (...)

Y podrías provocar un buen debate en clase sobre la causalidad, lo que verdadero DGP medios y la identificabilidad en general.

0 votos

Usted está proponiendo un modelo que cumple con el número 2 en el puesto

3voto

morgon Puntos 36

Utilizar variables con multicolinealidad y heteroscedasticidad como la renta frente a la edad: hacer una dolorosa ingeniería de rasgos que proporcione problemas de escalado: dar NAs para algunos salpicados de escasez. La parte de la linealidad realmente hace que sea más difícil, pero podría ser doloroso. Además, los valores atípicos aumentarían el problema para él por adelantado.

0 votos

Creo que la heteroscedasticidad está fuera del alcance del problema, pero definitivamente estoy de acuerdo en que la multicolinealidad es una de las mejores maneras de hacer que la verdadera especificación sea difícil de encontrar.

1voto

Johnny Puntos 151

¿Están permitidos los términos de interacción? Si es así, establezca todos los coeficientes de orden inferior en 0 y construya todo el modelo a partir de interacciones de orden N-ésimo (por ejemplo, términos como X5X8X12X13 ). Para 20 regresores, el número de interacciones posibles es astronómicamente grande y sería muy difícil encontrar sólo las que usted incluyó.

0voto

Erin Drummond Puntos 154

Elige cualquier modelo lineal. Dale un conjunto de datos donde la mayoría de las muestras estén alrededor de x=0. Dale pocas muestras alrededor de x=1.000.000.

Lo bueno aquí es que las muestras alrededor de x=1.000.000 no son valores atípicos. Se generan a partir de la misma fuente. Sin embargo, como las escalas son tan diferentes, los errores alrededor de 1M no encajarán con los errores alrededor de 0.

Veamos un ejemplo. Nuestro modelo es Yi=β0+β1Xi1+ϵi

Tenemos un conjunto de datos de n muestras, cerca de x=0. Elegiremos 2 puntos más en valores "suficientemente lejanos". Suponemos que estos dos puntos tienen algún error.

Un valor "suficientemente lejano" es un valor tal que el error de una estimación que no pasa directamente por estos dos puntos es mucho mayor que el error del resto del conjunto de datos.

Por lo tanto, la regresión lineal elegirá los coeficientes que pasen en estos dos puntos y se perderá el resto del conjunto de datos y será diferente del modelo subyacente.

Véase el siguiente ejemplo. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000 ,1002169}, {1000001, 999688}}

Esto es en el formato de la serie WolfarmAlpha. En cada par, el primer elemento es x y el segundo se generó en Excel utilizando la fórmula =A2+NORMINV(RAND(),0,2000).

Por lo tanto, β0=1,β1=1 y añadimos ruido aleatorio normalmente distribuido con media 0 y desviación estándar de 2000. Esto es mucho ruido cerca de cero pero uno pequeño cerca de un millón.

Utilizando Wolfram Alpha, se obtiene la siguiendo regresión lineal y=178433.x426805 que es bastante diferente de la distribución subyacente de y=x

0 votos

¿Cómo debería funcionar esto exactamente y qué efecto se supone que crea?

0 votos

Funciona ya que el ruido y la precisión funcionarán de forma diferente en las distintas escalas. En los números altos, llevando al extremo y considerando un solo punto, la línea debe pasar directamente por él o sufrir un gran coste. Un poco de ruido es suficiente para no encontrar los valores correctos. Alrededor de cero , de nuevo en extremo - no hay intecepción, se queda con el ruido.

0 votos

Utilice un valor pequeño para la variable con el coeficiente incorrecto y estará pagando el coste.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X