Dada la plétora de cosas que hay en el paquete, creo que es una respuesta demasiado amplia, en el sentido de que "daría para un libro".
Sin embargo, permítanme darles algunos principios generales:
1) Cuando se trata de encontrar el mejor (según algún criterio de ajuste, por ejemplo) subconjunto de variables, generalmente adolecerá de prácticamente el mismo conjunto de problemas que la regresión por pasos o todos los subconjuntos . [Aquí entra Leaps and Bounds, por ejemplo, incluso si se basa en AIC o BIC - algunos de los problemas pueden mitigarse en cierta medida utilizando un criterio de este tipo, pero los principales problemas subyacentes permanecen inalterados].
Veamos la viñeta "Medición de la calidad
1.2 Medición de la calidad de un subconjunto
La selección de subconjuntos de variables requiere la definición de un criterio numérico que mida la calidad de cualquier subconjunto de variables dado. En una regresión lineal múltiple univariante, por ejemplo, las posibles medidas de la calidad de un subconjunto de predictores son el coeficiente de determinación $R^2$ El $F$ estadística en una prueba de bondad de ajuste, su correspondiente $p$ -valor o Criterio de Información de Akaike (AIC), por poner algunos ejemplos.
Sí, así. Si esto es lo que está pasando, esencialmente te va a dejar con la misma lista de la compra de los problemas como paso a paso (menos, tal vez, el problema de que paso a paso a menudo se pierde el modelo "óptimo").
En términos generales, no importa si usas este o aquel algoritmo para encontrar el óptimo, o esta o aquella estadística en tu criterio, es el uso de la optimización en sí (sin tener en cuenta adecuadamente los efectos de hacer eso) lo que jode todo tan gravemente. Utiliza el optimizador que quieras, sigue optimizando, así que sigues estando jodido.
2) Si hay algún tipo de regularización (como la contracción, como se puede conseguir con el lazo y una serie de otros enfoques), entonces muchos de esos problemas pueden reducirse sustancialmente o evitarse.
3) cuando existe una evaluación adecuada fuera de la muestra del rendimiento de los modelos competidores de la clase (por ejemplo, mediante validación cruzada), las inferencias tienden a ser más "honestas", a acercarse más a las propiedades requeridas, como la cobertura aproximada de los intervalos de confianza, etc. Con la selección de variables, esto tendería a implicar tener un subconjunto para la identificación, un subconjunto para la estimación y un subconjunto para las pruebas. (La validación cruzada funcionaría entonces observando lo que ocurre con un subconjunto repetido como ese).
Los detalles más concretos dependen de lo que se haga exactamente con cada función, pero creo que esto da una idea general.