20 votos

Pruebas de significación o de la validación cruzada?

Dos enfoques comunes para la selección de correlación de las variables son las pruebas de significación y de la validación cruzada. ¿Qué problemas de cada intento de resolver y, cuando iba a preferir una sobre la otra?

17voto

simmosn Puntos 304

Simplemente el uso de las pruebas de significación y un procedimiento paso a paso para realizar la selección del modelo puede llevar a creer que usted tiene una muy fuerte modelo con predictores significativos cuando, en realidad, no; usted puede obtener correlaciones fuertes por casualidad, y estas correlaciones se puede aparentemente ser mejorados, como quitar innecesarios predictores.

El procedimiento de selección, por supuesto, mantiene sólo las variables con las correlaciones más fuertes con el resultado y, como el procedimiento paso a paso se mueve hacia adelante, la probabilidad de cometer un error de Tipo I se hace más grande de lo que podría imaginar. Esto es debido a que el estándar de errores (y por lo tanto los valores de p) no se ajustan para tener en cuenta el hecho de que las variables no fueron seleccionados para su inclusión en el modelo de forma aleatoria y múltiples pruebas de hipótesis se llevaron a cabo para elegir ese conjunto.

David Freedman tiene un lindo papel en el que muestra estos puntos se llama "Una Nota sobre el Screening de Ecuaciones de Regresión." El resumen:

Considerar el desarrollo de un modelo de regresión en un contexto donde el sustantivo la teoría es débil. Centrarse en un caso extremo, supongamos que en el hecho de no existe relación entre la variable dependiente y la las variables explicativas. Aún así, si hay muchos explicativo variables, el $R^2$ será alto. Si las variables explicativas con los pequeños t las estadísticas se cayó y la ecuación de reequipamiento, el $R^2$ permanecerá alta y el conjunto de F será muy significativo. Este es demostrado por la simulación y por asintótica de cálculo.

Una posible solución a este problema, como usted ha mencionado, es el uso de una variante de la validación cruzada. Cuando no tengo un buen económico (mi área de investigación) o estadísticos razón para creer que mi modelo, este es mi método preferido para la selección de un modelo adecuado y la realización de inferencias.

En otras respuestas se podría mencionar que el paso a paso de los procedimientos de uso de los AIC o BIC son asympotically equivalente a la validación cruzada. Esto sólo funciona como el número de observaciones en relación con el número de predictores se hace grande, sin embargo. En el contexto de tener muchas variables en relación con el número de observaciones (Freedman dice 1 variable por 10 o menos observaciones), la selección de esta manera pueden exhibir los pobres propiedades descritas anteriormente.

En una época de la potencia de los ordenadores, no veo ninguna razón para no usar la validación cruzada como un modelo de procedimiento de selección sobre la selección paso a paso.

3voto

Nathan Long Puntos 30303

Primero, deja de ser explícitos y poner la pregunta en el contexto de la regresión lineal múltiple donde nos regresión de una variable de respuesta, $y$, en diferentes variables $x_1, \ldots, x_p$ (correlacionadas o no), con vector de parámetros $\beta = (\beta_0, \beta_1, \ldots, \beta_p)$ y la función de regresión
$$f(x_1, \ldots, x_p) = \beta_0 + \beta_1 x_1 + \ldots + \beta_p x_p,$$ lo que podría ser un modelo de la media de la variable de respuesta para una determinada observación de $x_1, \ldots, x_p$.

La pregunta es cómo seleccionar un subconjunto de las $\beta_i$'s de ser distinto de cero, y, en particular, una comparación de pruebas de significación frente a la validación cruzada.

Para ser muy claro acerca de la terminología, pruebas de significación es un concepto general, que se lleva a cabo de manera diferente en diferentes contextos. Depende, por ejemplo, en la selección de una prueba estadística. La validación cruzada es realmente un algoritmo para la estimación de la espera generalización de error, que es el importante concepto general, y de los que depende la elección de una función de pérdida.

A la espera de que la generalización de error es un poco técnico para definir formalmente, pero en palabras es la pérdida esperada de un modelo ajustado cuando se utiliza para la predicción en un conjunto de datos independiente, donde la expectativa es que los datos utilizados para la estimación así como el conjunto de datos independiente se utiliza para la predicción.

Para hacer un razonable comparación le permite enfocarse en los si $\beta_1$ podría ser tomado igual a 0 o no.

  • Para pruebas de significación de la hipótesis nula de que $\beta_1 = 0$ el principal procedimiento para calcular un $p$-valor, que es la probabilidad de que la prueba estadística es mayor que el observado para nuestro conjunto de datos bajo la hipótesis nula, es decir, al asumir que el $\beta_1 = 0$. La interpretación es que un pequeño $p$-valor es evidencia en contra de la hipótesis nula. Hay que comúnmente se utilizan reglas de lo "pequeño" significa, en un sentido absoluto, como el famoso 0.05 o 0.01 niveles de significación.
  • Para la espera de que la generalización de error se calcula, tal vez mediante la validación cruzada, una estimación de la expectativa de generalización de error bajo el supuesto de que $\beta_1 = 0$. Esta cantidad nos indica el funcionamiento de los modelos provistos por el método que se utilice, y con $\beta_1 = 0$, llevará a cabo , en promedio, cuando se utiliza para la predicción de datos independientes. Una gran espera generalización de error es mala, pero no hay reglas en términos de su valor absoluto en cómo de grande tiene que ser para ser malo. Vamos a tener que estimar la espera de que la generalización de error para el modelo en el que $\beta_1$ es permitido ser diferente de 0, y así, entonces, podemos comparar los dos estimada de errores. Cualquiera que sea el menor se corresponde con el modelo que elija.

El uso de pruebas de significación no estamos directamente implicados en el "rendimiento" del modelo bajo la hipótesis nula frente a otros modelos, sino que están preocupados con la documentación de que el valor null es malo. Esto tiene más sentido (para mí) en una confirmación de instalación donde el objetivo principal es confirmar y documentar un priorato bien especificado hipótesis científica, que puede ser formulada de la $\beta_1 \neq 0$.

A la espera de que la generalización de error es, por otro lado, sólo se preocupa con el promedio de "rendimiento" en términos de espera de predicción de la pérdida, y la conclusión de que es mejor dejar que las $\beta_1$ a ser diferente de 0 en términos de la predicción no es un intento de documento que $\beta_1$ es "realmente" diferente de 0 $-$ lo que eso significa.

Yo personalmente he trabajado nunca en un problema donde formalmente se necesita pruebas de significación, sin embargo, $p$- valores de encontrar su camino en mi trabajo, y no proporcionan sensible guías y las primeras impresiones para la selección de variables. Estoy, sin embargo, sobre todo el uso de la penalización métodos como lazo en combinación con la generalización de error para cualquier modelo formal de selección, y poco a poco estoy tratando de reprimir mi inclinación incluso calcular $p$-valores.

Para el análisis exploratorio veo ningún argumento a favor de las pruebas de significación y $p$-valores, y sin duda lo recomiendo centrarse en un concepto como el de la espera generalización de error de selección de variables. En otros contextos donde uno podría considerar el uso de un $p$-valor para la documentación de la que $\beta_1$ no es 0, yo diría que casi siempre es una buena idea para que informe de una estimación de $\beta_1$ y un intervalo de confianza del lugar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X