4 votos

Selección de variables para la regresión: el paquete subselect

Ningún asiduo a estas páginas desconocerá los peligros de utilizar métodos automáticos por pasos y similares para la selección de variables en el análisis de regresión. Pero las alternativas preferidas, como el lazo o la red elástica, tienen sus propias dificultades.

No puedo encontrar en ninguna parte del archivo aquí una discusión de los métodos proporcionados por el subseleccionar en R, con el que acabo de toparme - el paquete existe, por lo que veo, desde hace una década o más, y presumiblemente ha resultado útil.

Además de una variación del procedimiento de los saltos, subseleccionar ofrece tres algoritmos (que denomina anneal, genetic y improve) de selección de variables para distintos tipos de análisis.

¿Han demostrado estos procedimientos (o alguno de ellos) su utilidad en la selección de variables?

5voto

AdamSane Puntos 1825

Dada la plétora de cosas que hay en el paquete, creo que es una respuesta demasiado amplia, en el sentido de que "daría para un libro".

Sin embargo, permítanme darles algunos principios generales:

1) Cuando se trata de encontrar el mejor (según algún criterio de ajuste, por ejemplo) subconjunto de variables, generalmente adolecerá de prácticamente el mismo conjunto de problemas que la regresión por pasos o todos los subconjuntos . [Aquí entra Leaps and Bounds, por ejemplo, incluso si se basa en AIC o BIC - algunos de los problemas pueden mitigarse en cierta medida utilizando un criterio de este tipo, pero los principales problemas subyacentes permanecen inalterados].

Veamos la viñeta "Medición de la calidad

1.2 Medición de la calidad de un subconjunto
La selección de subconjuntos de variables requiere la definición de un criterio numérico que mida la calidad de cualquier subconjunto de variables dado. En una regresión lineal múltiple univariante, por ejemplo, las posibles medidas de la calidad de un subconjunto de predictores son el coeficiente de determinación $R^2$ El $F$ estadística en una prueba de bondad de ajuste, su correspondiente $p$ -valor o Criterio de Información de Akaike (AIC), por poner algunos ejemplos.

Sí, así. Si esto es lo que está pasando, esencialmente te va a dejar con la misma lista de la compra de los problemas como paso a paso (menos, tal vez, el problema de que paso a paso a menudo se pierde el modelo "óptimo").

En términos generales, no importa si usas este o aquel algoritmo para encontrar el óptimo, o esta o aquella estadística en tu criterio, es el uso de la optimización en sí (sin tener en cuenta adecuadamente los efectos de hacer eso) lo que jode todo tan gravemente. Utiliza el optimizador que quieras, sigue optimizando, así que sigues estando jodido.

2) Si hay algún tipo de regularización (como la contracción, como se puede conseguir con el lazo y una serie de otros enfoques), entonces muchos de esos problemas pueden reducirse sustancialmente o evitarse.

3) cuando existe una evaluación adecuada fuera de la muestra del rendimiento de los modelos competidores de la clase (por ejemplo, mediante validación cruzada), las inferencias tienden a ser más "honestas", a acercarse más a las propiedades requeridas, como la cobertura aproximada de los intervalos de confianza, etc. Con la selección de variables, esto tendería a implicar tener un subconjunto para la identificación, un subconjunto para la estimación y un subconjunto para las pruebas. (La validación cruzada funcionaría entonces observando lo que ocurre con un subconjunto repetido como ese).

Los detalles más concretos dependen de lo que se haga exactamente con cada función, pero creo que esto da una idea general.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X