Creo que este enfoque es erróneo, pero tal vez será más útil si puedo explicar por qué. El deseo de conocer el mejor modelo dado algo de información sobre un gran número de variables es bastante comprensible. Por otra parte, es una situación en la que la gente parece encontrar a sí mismos con regularidad. Además, muchos de los libros de texto (y cursos) en la regresión de la cubierta de la selección paso a paso de los métodos, lo que implica que deben ser legítimos. Lamentablemente, sin embargo, no lo son, y la vinculación de esta situación y la meta son bastante difíciles de navegar con éxito. La siguiente es una lista de problemas automatizada paso a paso el modelo de los procedimientos de selección (que se atribuye a Frank Harrell, y copiado de aquí):
- Que los rendimientos de los valores de R cuadrado que están muy predispuestas a ser alta.
- El F y chi-cuadrado pruebas citado junto a cada variable en la impresión no han reclamado su distribución.
- El método de los rendimientos de los intervalos de confianza para los efectos y los valores predichos que son falsamente estrecho; ver Altman y Andersen
(1989).
- Que los rendimientos de los valores de p que no tienen un significado propio y el de corrección adecuados para ellos es un problema difícil.
- Da sesgada coeficientes de regresión que necesita la contracción (los coeficientes para las variables restantes son demasiado grandes; ver
Tibshirani [1996]).
- Tiene graves problemas en la presencia de multicolinealidad.
- Se basa en los métodos (por ejemplo, F pruebas para modelos anidados) que estaban destinados a ser utilizados para probar preespecificado hipótesis.
- Aumentar el tamaño de la muestra no ayuda mucho; ver Derksen y Keselman (1992).
- Que nos permite no pensar en el problema.
- Se utiliza una gran cantidad de papel.
La pregunta es, ¿qué tiene de malo acerca de estos procedimientos, / ¿por qué se producen estos problemas? La mayoría de las personas que han tomado un básico de regresión curso está familiarizado con el concepto de regresión a la media, así que esto es lo que yo uso para explicar estas cuestiones. (Aunque esto puede parecer off-topic en primer lugar, tener paciencia conmigo, te prometo que es relevante.)
Imagina un entrenador de atletismo de la escuela secundaria en el primer día de audiciones. Treinta niños se muestran. Estos niños tienen algún problema a nivel de la habilidad intrínseca de la que ni el entrenador, ni nadie, tiene acceso directo. Como resultado, el entrenador hace lo único que puede hacer, que es tener a todos ellos ejecutar un radio de 100 metros lisos. La de veces que presumiblemente es una medida de su capacidad intrínseca y se toman como tal. Sin embargo, ellos son probabilísticos; algunos proporción de lo bien que la persona no se basa en la posibilidad real y cierta proporción es al azar. Imaginar que la verdadera situación es la siguiente:
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
Los resultados de la primera carrera, se muestran en la siguiente figura, junto con el entrenador de los comentarios de los niños.
Tenga en cuenta que la partición de los niños por sus tiempos de carrera de las hojas que se superpone en su capacidad intrínseca--este hecho es crucial. Después de elogiar algunos, y gritar a algunos otros (como los entrenadores tienden a hacer), se les ha de correr de nuevo. Aquí están los resultados de la segunda carrera con el entrenador de las reacciones (simulado en el mismo modelo anterior):
Aviso de que su capacidad intrínseca es idéntico, pero las veces que rebotó respecto a la primera carrera. Desde el entrenador del punto de vista, aquellos que él grito tendió a mejorar, y los elogió tendían a hacer peor (he adaptado este ejemplo concreto de la Kahneman cita aparece en la página de la wiki), aunque en realidad la regresión a la media es un matemático simple consecuencia del hecho de que el entrenador es la selección de los atletas para el equipo basado en una medición que es en parte al azar.
Ahora bien, ¿qué tiene que ver esto con automatizada (por ejemplo, paso a paso) modelo de técnicas de selección? El desarrollo y la confirmación de un modelo basado en el mismo conjunto de datos es a veces llamada de datos de dragado. Aunque existe cierta relación subyacente entre las variables, y las relaciones más fuertes se espera que el rendimiento más fuerte de puntuación (por ejemplo, mayor que t-statistics), estas son variables aleatorias y el se dio cuenta de valores contienen error. Por lo tanto, al seleccionar las variables de la base de haber mayor (o menor) se dio cuenta de valores, que puede ser a causa de su verdadera subyacente valor, error, o ambos. Si usted procede de esta manera, usted será tan sorprendido como el entrenador fue después de la segunda carrera. Esto es cierto ya sea que usted seleccione las variables basándose en el hecho de alta t-estadística, o bajo las intercorrelaciones. True, mediante el AIC es mejor que el uso de los valores de p, ya que penaliza el modelo de la complejidad, pero la AIC es en sí misma una variable aleatoria (si se ejecuta un estudio varias veces y ajuste el mismo modelo, la AIC va a rebotar como todo lo demás). Por desgracia, esto es sólo un problema intrínseco a la naturaleza epistémica de la realidad misma.
Espero que esto sea útil.