11 votos

¿Cómo interpretar las variables que son excluidas o incluidas en el modelo de lazo?

Me recibí de otros puestos que no se puede atributo de "importancia" o "significado" a las variables predictoras que entrar en un lazo modelo ya que el cálculo de las variables " p-valores o desviaciones estándar es todavía un trabajo en progreso.

Bajo ese razonamiento, es correcto afirmar que NO se puede decir que las variables que fueron EXCLUIDOS del lazo modelo de "irrelevante" o "insignificante"?

Si es así, ¿qué puedo realmente reclamación acerca de las variables que están excluidos o incluidos en un lazo de modelo? En mi caso particular, he seleccionado el parámetro de ajuste lambda repitiendo 10-fold cross-validation 100 veces con el fin de reducir randonmess y el promedio de las curvas de error.

UPDATE1: he seguido una sugerencia que aparece a continuación y re-corrió lazo utilizando muestras bootstrap. Tuve que ir con 100 muestras (que cantidad era lo que mi equipo de alimentación podría gestionar la noche) y algunos surgieron patrones. 2 de mis 41 las variables que entraron en el modelo de más de 95% de las veces, 3 variables más del 90% y 5 variables que más de un 85%. Los 5 variables se encuentran entre los 9 que entraron en el modelo, cuando me había quedado con la muestra original, y eran los únicos con los más altos valores del coeficiente de entonces. Si me quedo lazo con decir de bootstrap de 1000 muestras y los patrones se mantienen, ¿cuál sería la mejor manera de presentar los resultados de mi?

  • ¿De bootstrap de 1000 muestras de sonido suficiente? (Mi tamaño de la muestra es 116)

  • Debo lista de todas las variables y la frecuencia con la que entrar en el modelo, y luego argumentar que aquellos que entran con más frecuencia son más propensos a ser significativo?

  • Es que, tan lejos como puedo ir con mis reclamos? Porque es un trabajo en progreso (ver arriba) no puedo utilizar un valor de corte, ¿verdad?

UPDATE2: a raíz de una sugerencia a continuación, he calculado los siguientes: en promedio, el 78% de las variables en el modelo original introducido los modelos generados para el 100 muestras bootstrap. Por otro lado, sólo el 41% de la otra manera alrededor. Esto tiene que ver en gran parte con el hecho de que los modelos generados para el arranque de las muestras tienden a incluir más variables (17 en promedio) que el modelo original (9).

UPDATE3: Si usted me podría ayudar en la interpretación de los resultados que obtuve desde el arranque y la simulación de Monte Carlo, por favor, eche un vistazo a este otro post.

10voto

dan90266 Puntos 609

Su conclusión es correcta. Pensar en dos aspectos:

  1. El poder estadístico para detectar un efecto. A menos que el poder es muy alto, uno puede perderse ni grandes efectos reales.
  2. Fiabilidad: que tiene una alta probabilidad de encontrar a la derecha (true) características.

Hay al menos 4 de los principales consideraciones:

  1. Es el método reproducible utilizando el mismo conjunto de datos?
  2. Es el método reproducible por otros usuarios con el mismo conjunto de datos?
  3. Los resultados son reproducibles mediante otros conjuntos de datos?
  4. Es el resultado fiable?

Cuando uno quiere hacer algo más que predicción, pero para sacar conclusiones sobre qué características son importantes en la predicción de los resultados, 3. y 4. son cruciales.

Ha dirigido 3. (y para este propósito, 100 levanta es suficiente), pero además de las características individuales de inclusión fracciones necesitamos saber el promedio absoluto de 'distancia' entre un arranque y el conjunto de funciones que el original seleccionado conjunto de características. Por ejemplo, ¿cuál es el número promedio de las características detectadas a partir de la totalidad de la muestra que se encontraron en el arranque de la muestra? ¿Cuál es el número promedio de características seleccionadas de un bootstrap de la muestra que se encontraron en el análisis original? ¿Cuál es la proporción de veces que un bootstrap de encontrar una coincidencia exacta con el original conjunto de características? ¿Cuál es la proporción de los que un bootstrap fue dentro de una característica de estar de acuerdo exactamente con el original? Dos características?

No sería apropiado decir que cualquier corte debe ser utilizado en la elaboración de una conclusión general.

Con respecto a la parte 4., nada de esto se refiere a la fiabilidad del proceso, es decir, cómo cerrar el conjunto de características es el "verdadero" conjunto de características. A la dirección que usted podría hacer un Monte-Carlo re-estudio de simulación donde se toma la muestra original lazo resultado como la 'verdad' y simular nuevos vectores de respuesta a varios cientos de veces con algún error que se asume la estructura. Por cada nueva simulación se ejecuta el lazo en el original conjunto predictor de la matriz y la nueva respuesta del vector, y determinar cómo cerrar el seleccionado lazo conjunto de características es la verdad que usted simulado. Re-simulación de condiciones en todo el conjunto de predictores candidatos y utiliza los coeficientes estimados de la inicialmente modelo ajustado (y en el lazo caso, el conjunto de predictores seleccionados) como un conveniente la 'verdad' a simular. Mediante el uso de la original predictores uno obtiene automáticamente un conjunto razonable de co-linearities construido en la simulación de Monte Carlo.

Para simular las nuevas realizaciones de $Y$ dada la original $X$ matriz y ahora verdaderos coeficientes de regresión, se puede utilizar la varianza residual y asumir la normalidad, con una media de cero, o para ser aún más empírica, guardar todos los residuos de la original fit y tomar un bootstrap muestra de ellos para añadir residuos en el conocido lineal predictor $X\beta$ para cada simulación. A continuación, el original de modelado de proceso se ejecuta a partir de cero (incluyendo la selección de la óptima pena) y un nuevo modelo a desarrollar. Para cada uno de los 100 iteraciones comparar el nuevo modelo para el verdadero modelo de simulación.

De nuevo, esta es una buena manera de comprobar la fiabilidad del proceso, la capacidad de encontrar la "verdadera" características y para obtener buenas estimaciones de $\beta$.

Al $Y$ es binario, en lugar de ocuparse de los residuos, los re-simulación consiste en calcular el predictor lineal $X\beta$ a partir de la original (fit, por ejemplo, con el lazo), tomando la transformación logística, y generar para cada simulación de Monte Carlo de un nuevo $Y$ vector de ajuste de cero. En R se puede decir por ejemplo

lp <- predict(...) # assuming suitable predict method available, or fitted()
probs <- plogis(lp)
y <- ifelse(runif(n) <= probs, 1, 0)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X