12 votos

Reducir el número de variables en una regresión múltiple

Tengo un gran conjunto de datos compuesto por los valores de varios cientos de variables financieras que podrían utilizarse en una regresión múltiple para predecir el comportamiento de un fondo indexado a lo largo del tiempo. Me gustaría reducir el número de variables a una decena, pero conservando el mayor poder predictivo posible. Añadido: El conjunto reducido de variables tiene que ser un subconjunto del conjunto original de variables para conservar el significado económico de las variables originales. Así, por ejemplo, no debería acabar con combinaciones lineales o agregados de las variables originales.

Algunas ideas (probablemente ingenuas) sobre cómo hacerlo:

  1. Realice una regresión lineal simple con cada variable y elija las diez con mayor $R^2$ valores. Por supuesto, no hay garantía de que las diez mejores variables individuales combinadas sean el mejor grupo de diez.
  2. Realice un análisis de componentes principales e intente encontrar las diez variables originales con las mayores asociaciones con los primeros ejes principales.

No creo que pueda realizar una regresión jerárquica porque las variables no están realmente anidadas. Probar todas las combinaciones posibles de diez variables es inviable desde el punto de vista informático porque hay demasiadas combinaciones.

¿Existe un enfoque estándar para abordar este problema de reducir el número de variables en una regresión múltiple?

Parece que este sería un problema lo suficientemente común como para que hubiera un enfoque estándar.

Una respuesta muy útil sería aquella que no sólo mencionara un método estándar, sino que también diera una visión general de cómo y por qué funciona. Por otra parte, si no hay un método estándar, sino varios con diferentes puntos fuertes y débiles, una respuesta muy útil sería la que analizara sus pros y sus contras.

El comentario de whuber más abajo indica que la petición del último párrafo es demasiado amplia. En su lugar, aceptaría como una buena respuesta una lista de los principales enfoques, quizás con una descripción muy breve de cada uno. Una vez que tenga los términos, podré buscar los detalles de cada uno yo mismo.

7voto

dan90266 Puntos 609

El método 1 no funciona. El método 2 tiene esperanza dependiendo de cómo lo hagas. Es mejor introducir los componentes principales en orden descendente de la varianza explicada. Un enfoque más interpretable es hacer una agrupación de variables, luego reducir cada cluster a una sola puntuación (sin usar Y), luego ajustar un modelo con las puntuaciones de los clusters.

3voto

Brian Borchers Puntos 2546

Una pista. $bxb = x^{-1}\Longleftrightarrow bx = x^{-1}b^{-1}\Longleftrightarrow bx = (bx)^{-1}\Longleftrightarrow bx$ tiene orden $1$ o $2$ .

Excluyendo $b=x^{-1}$ garantiza que $bx\neq e$ .

3voto

Assembler Puntos 545

Teorema. Si $n$ es un número, entonces $n^2 = 2n$ .

Prueba. Establece $n = 2$ . Entonces $n^2 = 4$ y $2n = 4$ . Por lo tanto, $n^2 = 2n$ .

... Espera un segundo. Para $n=3$ tenemos que $3^2 = 9$ pero $2\cdot 3 = 6$ y $6\neq 9$ . ¡Así que la afirmación no es válida después de todo! ¿Se da cuenta de lo que ha fallado?

Lo mismo ocurre con sus declaraciones. En lugar de demostrarlas en un caso concreto, debe demostrarlas para todo lo posible $f$ y $g$ que se te ocurra.

[editar] Aquí tienes una ayuda para el caso (b), te sugiero que dejes de leer después de cada paso e intentes completar la prueba por ti mismo. Si no funciona, lee la siguiente pista.

  • Tenemos que demostrar que $g\circ f$ es suryente. Demos cualquier $c\in C$ debemos demostrar que hay algún $x\in A$ tal que $g(f(x)) = (g\circ f)(x) = c$ .
  • Sabemos que $g$ es proyectiva, por lo que existe alguna $b\in B$ tal que $g(b) = c$ .
  • Sabemos que $f$ es proyectiva, por lo que existe alguna $a\in A$ tal que $f(a) = b$ .
  • Ahora $c = g(b) = g(f(a))$ .
  • Llegamos a la conclusión de que tales $x$ existe de hecho, es precisamente el elemento $a$ que hemos construido.

2voto

gipap Puntos 43

¿Es necesario que sea tan pequeño? Si es así, ve a por ello: lo anuncian y lo cumplen. Si no es así, y sobre todo si el montador (¿usted?) tiene poca experiencia en soldadura, vaya más grande.

Las trazas más grandes son más fáciles de soldar, y están mejor laminadas al FR-4, por lo que puedes, aunque no deberías, sobrecalentar zonas con menos riesgo de que se levanten las trazas. Yo no suelo bajar de 10 mil (0,25 mm), ya que se ajusta convenientemente a los cables de paso más fino. Los tamaños mínimos de las características son útiles cuando besuquearse para pegar una traza entre otras características (entre conductores, almohadillas BGA, etc.).

El montaje de placas 20/20 mil me hace feliz.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X