20 votos

La estimación R cuadrado y la significación estadística de penalizada modelo de regresión

Estoy utilizando el paquete R penalizado para obtener el encogimiento de las estimaciones de los coeficientes para un conjunto de datos donde tengo un montón de predictores y poco conocimiento de cuáles son importantes. Después de que he elegido parámetros de ajuste de la L1 y la L2, y estoy satisfecho con mi coeficientes, es que hay una diferencia estadísticamente sonido manera de resumir el ajuste del modelo con algo como R-cuadrado?

Además, estoy interesado en la prueba de la importancia global del modelo (es decir, R2=0, o hacer todas las =0).

He leído a través de las respuestas en una pregunta similar preguntó aquí, pero no acababa de responder a mi pregunta. Hay un excelente tutorial sobre el paquete de R que estoy usando aquí, y el autor Jelle Goeman tenía la siguiente nota al final del tutorial con respecto a los intervalos de confianza de penalizada modelos de regresión:

Es una pregunta natural para los errores estándar de los coeficientes de regresión o de otras cantidades estimadas. En principio los errores estándar se puede calcular fácilmente, por ejemplo, utilizando el bootstrap.

Aún así, este paquete deliberadamente no les proporcionan. La razón de esto es que los errores estándar no son muy significativas para fuertemente estimaciones sesgadas tal como surgen de la penalizado métodos de estimación. Penalizado estimación es un procedimiento que reduce la varianza de los estimadores mediante la introducción de sesgo sustancial. El sesgo de cada estimador es, por tanto, un componente importante de su error cuadrático medio, mientras que su variación puede contribuir sólo una pequeña parte.

Por desgracia, en la mayoría de las aplicaciones de penalizada de regresión es imposible obtener una estimación suficientemente precisa de la tendencia. Cualquier arranque basado en cal - culations sólo puede dar una evaluación de la varianza de las estimaciones. Estimaciones fiables de los sesgos sólo están disponibles si es fiable, imparcial se dispone de estimaciones, que no suele ser el caso en las situaciones en las que penaliza se utilizan las estimaciones.

Informar de un error estándar de un penalizado estimar, por tanto, sólo cuenta parte de la historia. Se puede dar una impresión errónea de gran precisión, ignorando por completo la imprecisión causada por el sesgo. Sin duda es un error hacer de la confianza de las declaraciones que sólo se basan en una evaluación de la varianza de las estimaciones, tales como arranque basado en los intervalos de confianza de hacer.

4voto

patfla Puntos 1

Mi primera reacción a Jelle comentarios del dado es el "sesgo de schmias". Tienes que ser cuidadoso acerca de lo que significa "gran cantidad de factores". Esto podría ser "grande" con respecto a:

  1. El número de puntos de datos ("big p pequeño n")
  2. La cantidad de tiempo que usted tiene para investigar las variables
  3. El coste computacional de la inversión de un gigante de la matriz

Mi reacción fue basada en "grandes" con respecto al punto 1. Esto es debido a que en este caso es generalmente vale la pena el trade-off en el sesgo de la reducción en la varianza de que usted consigue. El sesgo es sólo importante "en el largo plazo". Así que si usted tiene una pequeña muestra, entonces, que la atención sobre "el largo plazo"?

De todo lo dicho anteriormente, $R^2$ probablemente no es particularmente una buena cantidad para calcular, especialmente cuando usted tiene un montón de variables (porque eso es casi todo lo $R^2$ le informa: usted tiene un montón de variables). Me gustaría calcular algo más parecido a un "error de predicción" el uso de la validación cruzada.

Lo ideal sería que este "error de predicción" debe basarse en el contexto de su modelo de la situación. Básicamente, quiere responder a la pregunta "¿qué tan bien mi modelo de reproducir los datos?". El contexto de su situación debe ser capaz de decirle lo de "lo bien" significa en el mundo real. Entonces usted necesidad de traducir esto en algún tipo de ecuación matemática.

Sin embargo, tengo que no obvia el contexto para ir fuera de la cuestión. Así, un "defecto" sería algo así como la PRENSA: $$PRESS=\sum_{i=1}^{N} (Y_{i}-\hat{Y}_{i,-i})^2$$ Donde $\hat{Y}_{i,-i}$ es el valor de predicción para $Y_{i}$ para un modelo ajustado sin la i-ésima punto de datos ($Y_i$ no influye en los parámetros del modelo). Los términos de la suma son también conocidos como "eliminación de residuos". Si esto es demasiado costosas computacionalmente a do $N$ modelo se ajusta (aunque la mayoría de los programas por lo general se da algo como esto con el estándar de salida), entonces yo sugeriría la agrupación de los datos. Para establecer la cantidad de tiempo que usted está dispuesto a esperar para $T$ (preferiblemente que no sea de 0 ^_^), y luego se divide por el tiempo que se necesita para adaptarse a su modelo de $M$. Esto dará un total de $G=\frac{T}{M}$ re-adapta, con un tamaño de muestra de $N_{g}=\frac{N\times M}{T}$. $$PRESS=\sum_{g=1}^{G}\sum_{i=1}^{N_{g}} (Y_{ig}-\hat{Y}_{ig,-g})^2$$ Una manera que usted puede obtener una idea de la importancia de cada variable, es re-ajuste de una regresión lineal (variables en el mismo orden). A continuación, compruebe proporcionalmente la cantidad de cada estimador se ha reducido a cero $\frac{\beta_{LASSO}}{\beta_{UNCONSTRAINED}}$. Lazo, y otra restringida de regresión puede ser visto como "suave selección de variables", porque en lugar de adoptar un binario "en-o-out", cada estimación se acerca a cero, dependiendo de lo importante que es para el modelo (según lo medido por los errores).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X