Vamos a considerar, por ejemplo, un modelo de regresión lineal. Me enteré de que, en la minería de datos, después de realizar una selección paso a paso basado en el criterio AIC, es engañoso vistazo a los p-valores para probar la hipótesis nula de que cada cierto coeficiente de regresión es cero. He oído que uno debe tener en cuenta todas las variables a la izquierda en el modelo como tener una verdadera regresión coeficiente diferente de cero en su lugar. ¿Alguien puede explicar por qué? Gracias.
Respuestas
¿Demasiados anuncios?después de realizar una selección paso a paso basado en el criterio AIC, es engañoso vistazo a los p-valores para probar la hipótesis nula de que cada cierto coeficiente de regresión es cero.
De hecho, los valores de p representa la probabilidad de ver una estadística de prueba de al menos tan extremo como el que tu tienes, cuando la hipótesis nula es verdadera. Si $H_0$ es verdadera, el valor de p debe tener una distribución uniforme.
Pero después de la selección paso a paso (o, de hecho, después de una gran variedad de otros enfoques para la selección de modelo), los p-valores de los términos que permanecen en el modelo no tiene esa propiedad, aún cuando sabemos que la hipótesis nula es verdadera.
Por ejemplo, podemos tomar de regresión múltiple donde algunos de los coeficientes son 0 y algunos no lo son, realizar un procedimiento paso a paso y, a continuación, para aquellos modelos que contienen variables que tuvieron cero los coeficientes de mirar a los p-valores que resultan.
(Que lejos de ser el único problema! En la misma simulación, se puede ver en las estimaciones y las desviaciones estándar de los coeficientes y descubrir las que corresponden a cero los coeficientes son también afectados.)
En resumen, no es apropiado considerar el habitual de los valores de p significativos.
He oído que uno debe tener en cuenta todas las variables a la izquierda en el modelo como significativos en su lugar.
Como si todos los valores en el modelo después de que paso a paso debería ser considerado como significativo", no estoy seguro de la medida en que esa es una manera útil para mirarlo. ¿Qué es el "significado" significa entonces?
Aquí está el resultado de la ejecución de R
stepAIC
con la configuración predeterminada de 1000 muestras simuladas con n=100, y diez variables de candidato (ninguno de los cuales están relacionados con la respuesta). En cada caso el número de términos a la izquierda en el modelo se cuentan:Sólo el 15,5% de que el tiempo era el correcto modelo elegido; el resto del tiempo, el modelo incluyó los términos que no eran diferentes de cero. Si en realidad es posible que haya cero-coeficiente de las variables en el conjunto de variables de candidato, es probable que tengamos varios términos donde el verdadero coeficiente es cero en nuestro modelo. Como resultado, no está claro que es una buena idea considerar a todos ellos como distinto de cero.
Una analogía puede ayudar. De regresión paso a paso cuando el candidato variables del indicador (ficticio) de las variables que representan categorías mutuamente exclusivas (como en ANOVA) corresponde exactamente a la elección de que los grupos combinar al enterarse de que los grupos son diferentes mínimamente por $t$-pruebas. Si el original de ANOVA fue probado contra la $F_{p-1, n-p-1}$, pero el final se derrumbó grupos están probados contra $F_{q-1, n-q-1}$ donde $q < p$ el resultado de la estadística ¿ no tienen un $F$ distribución y el falso positivo de la probabilidad de estar fuera de control.