Estoy trabajando en una tarea en la que mi profesor quiere que creemos un modelo de regresión verdadero, simulemos una muestra de datos y él va a intentar encontrar nuestro modelo de regresión verdadero utilizando algunas de las técnicas que hemos aprendido en clase. Asimismo, tendremos que hacer lo mismo con un conjunto de datos que nos ha dado.
Dice que ha sido capaz de producir un modelo bastante preciso para todos los intentos anteriores de intentar engañarlo. Ha habido algunos estudiantes que han creado algún modelo descabellado, pero podría decirse que ha sido capaz de producir un modelo más simple que era suficiente.
¿Cómo puedo desarrollar un modelo difícil de encontrar para él? ¿No quiero ser súper barato haciendo 4 términos cuadráticos, 3 observaciones y una varianza masiva? ¿Cómo puedo producir un conjunto de datos aparentemente inocuo que tenga un pequeño modelo difícil debajo de él?
Simplemente tiene 3 reglas que seguir:
-
Su conjunto de datos debe tener una variable "Y" y 20 variables "X" etiquetadas como "Y", "X1", ..., "X20".
-
Su variable de respuesta Y debe provenir de un modelo de regresión lineal que satisfaga:
Y′i=β0+β1X′i1+…+βp−1X′i,p−1+ϵi donde ϵi∼N(0,σ2) y p≤21 . -
Todo X -variables que se utilizaron para crear Y están contenidos en su conjunto de datos.
Hay que tener en cuenta que no es necesario que las 20 variables X estén en tu modelo real
Estaba pensando en utilizar algo como el Modelo Fama-French de 3 factores y hacer que empiece con los datos de las acciones (SPX y AAPL) y que tenga que transformar esas variables a los rendimientos compuestos de forma continua para oscurecerlo un poco más. Pero eso me deja con los valores perdidos en la primera observación y su serie temporal (que aún no hemos discutido en clase).
No estoy seguro de que este sea el lugar adecuado para publicar algo así. Me pareció que podría generar un buen debate.
Editar: Tampoco estoy preguntando por modelos "preconstruidos" en particular. Tengo más curiosidad por los temas/herramientas de la Estadística que permitirían a alguien hacer esto.
4 votos
Va a ser difícil si te limita a un modelo lineal...
3 votos
¿Cómo se evaluará la reconstrucción de su profesor?
2 votos
Sugerencia: mira multicolinealidad .
0 votos
@FrankH. Puede que no esté lo suficientemente familiarizado, pero podemos usar términos al cuadrado o cualquier transformación de las variables X que queramos. Yo le daré las variables sin transformar y él mismo tendrá que averiguar la transformación. Así que podemos tener modelos curvo-lineales. ¿Se considera que eso sigue siendo un modelo lineal?
0 votos
@StephanKolassa Creo que si puede estimar los coeficientes de mi verdadero modelo con un nivel de confianza del 95%, entonces "ganará". Ahh sí, algún uso estratégico de la multicolinealidad podría ser engañoso.
4 votos
Si su profesor gana si sus verdaderos coeficientes están dentro de los intervalos de confianza del 95%, entonces la multicolinealidad no ayudará, porque la multicolinealidad infla enormemente los IC. Si, por el contrario, la evaluación se realiza sobre la diferencia entre los datos predichos y los reales en los nuevos predictores (los datos "reales" se han generado utilizando su verdadera DGP), entonces la multicolinealidad será un enfoque mucho mejor. En resumen: averigüe cuál es la función objetivo y adapte su enfoque a ella. (Esto se aplica de forma más general en la vida...)
4 votos
@dylanjm ¿Podrías precisamente definir sus condiciones de victoria?
11 votos
El objetivo de este ejercicio es que aprendas tratando de pensar en algo por ti mismo . Si enfrentas a los expertos aquí contra él, tu oportunidad de estirar realmente tu cerebro consolidando diferentes piezas de información que te han dado en relación con la regresión se reduce dramáticamente (además de ser injusto para el profesor). Además, en cualquier institución de prestigio, presentarle un trabajo como si fuera tuyo cuando lo ha hecho en parte otra persona puede estar a medio camino entre la mala conducta académica y el fraude (sobre todo si vale cualquier parte de tu nota). Ten mucho cuidado con la forma exacta en que preguntas esto.
1 votos
@Glen_b Agradezco tu preocupación por mi integridad académica. Para que quede claro, mi nota no depende de mi capacidad de engañarle con mi conjunto de datos creado. Mi nota depende de mi capacidad de desarrollar un modelo para los datos que nos dio (que no he preguntado aquí). Esto se planteó más bien como un reto para nosotros. No tendría ningún problema en decirle que uso el CV como recurso. Como se mencionó anteriormente, sólo hay 3 reglas para el desafío. Yo tampoco estaba pidiendo modelos complicados, sino ideas que podría utilizar para ofuscar mi modelo (por ejemplo, se mencionó la multicolinealidad)
1 votos
@MatthewGunn Lo he confirmado. La redacción precisa es, "Ganaré si estimo, con un 95% de confianza, su verdadero modelo de regresión, o uno matemáticamente equivalente".
2 votos
Puede ser una pregunta ingenua, pero ¿qué (aparte de la deportividad) impide que el profesor dé los intervalos de confianza como (−∞,∞) ?
0 votos
Cómo se puntúa en este juego/batalla. ¿Qué quiere decir con "capaz de producir un modelo más simple que sea suficiente"? Cuándo se considera que el modelo es suficiente o "matemáticamente equivalente".
0 votos
@dylanjm, tu primer comentario parece contradecir tus requisitos 1 y 2. ¿Podrías aclararlo?
4 votos
A pesar de la popularidad de esta pregunta, me veo obligado a cerrarla en este punto porque incluso después de reiteradas peticiones de aclaraciones sobre las reglas del juego (qué criterios se utilizarán para evaluar el éxito, cuántas muestras hay que suministrar, etc.) esta importante información sigue sin aparecer en la pregunta. Nuestros objetivos son más estrechos y concretos que "generar debate": consulte nuestro centro de ayuda para el tipo de preguntas que podemos abordar en este sitio.