20 votos

Cuándo puede usted utilizar los datos basados en los criterios para especificar un modelo de regresión?

He escuchado que cuando muchos modelo de regresión especificaciones (es decir, en OLS) son consideradas como posibilidades para un conjunto de datos, esto hace que las comparaciones múltiples problemas y los valores de p y los intervalos de confianza no son fiables. Un ejemplo extremo de esto es la regresión paso a paso.

Cuando puedo usar los datos para ayudar a especificar el modelo, y cuando no es éste un enfoque válido? ¿Siempre es necesario tener un objeto basado en la teoría para formar el modelo?

9voto

Rob Wells Puntos 361

Selección de variables técnicas, en general (ya sea paso a paso, atrás, adelante, todos los subconjuntos, AIC, etc.), capitalizar la casualidad o al azar de los patrones en los datos de la muestra que no existen en la población. El término técnico para esto es más ajustada y es especialmente problemático con pequeños conjuntos de datos, aunque no es exclusiva de ellos. Mediante el uso de un procedimiento en el que se selecciona variables de acuerdo en que mejor se ajuste a todos los de la variación aleatoria que parece encajar en este ejemplo concreto, contribuye a que las estimaciones y los errores estándar. Este es un problema para ambos predicción e interpretación del modelo.

Específicamente, r-cuadrado es demasiado alto y las estimaciones de los parámetros son parciales (que están muy lejos del 0), los errores estándar de los parámetros que son demasiado pequeños (y por lo tanto los valores de p y los intervalos alrededor de los parámetros son demasiado pequeños/estrecho).

La mejor línea de defensa contra estos problemas es la construcción de modelos, pensativa, y se incluyen los predictores que hacen sentido a partir de la teoría, la lógica y los conocimientos previos. Si una variable de proceso de selección es necesario, usted debe seleccionar un método que penaliza a las estimaciones de los parámetros (encogimiento de los métodos) por el ajuste de los parámetros y los errores estándar más ajustada. Algunos de contracción son los métodos de Regresión Ridge, Menos Ángulo de Regresión, o el lazo. Además, la validación cruzada usando un conjunto de datos de entrenamiento y un conjunto de datos de prueba o modelo-promedio puede ser útil para probar o reducir los efectos de la sobre-ajuste.

Harrell es una gran fuente para una discusión detallada de estos problemas. Harrell (2001). "Modelos De Regresión De Estrategias."

7voto

Eric Davis Puntos 1542

En las ciencias sociales el contexto de donde yo vengo, la cuestión es si usted está interesado (a) predicción o (b) las pruebas de una investigación centrada en la pregunta. Si el objetivo es la predicción, a continuación, impulsados por los datos de los métodos son adecuados. Si el propósito es examinar una investigación centrada en la pregunta entonces es importante considerar que el modelo de regresión específicamente las pruebas de su pregunta.

Por ejemplo, si su tarea fue la de seleccionar un conjunto de pruebas de selección para predecir el rendimiento en el trabajo, el objetivo puede, en cierto sentido, ser visto como uno de maximizar la predicción del rendimiento laboral. Por lo tanto, impulsado por los datos de los enfoques sería útil.

En contraste, si quería entender la importancia relativa de las variables de personalidad y capacidad de las variables que influyen en el rendimiento, a continuación, un modelo específico de comparación de enfoque puede ser más apropiado.

Normalmente, cuando la exploración se centró preguntas de investigación el objetivo es aclarar algo sobre el subyacente de los procesos causales que actúan como oposición para el desarrollo de un modelo óptimo de predicción.

Cuando estoy en el proceso de desarrollo de modelos de proceso, basado en datos de corte transversal que yo iba a ser cautelosos acerca de: (a) incluyendo los predictores que, en teoría, podría ser pensado como consecuencias de la variable de resultado. E. g., una persona de la creencia de que son un buen intérprete es un buen predictor del rendimiento en el trabajo, pero es probable que esto es al menos en parte causada por el hecho de que han observado su propio desempeño. (b) incluyendo un gran número de factores que son un reflejo de la misma subyacentes de los fenómenos. E. g., incluyendo 20 artículos de la medición de la satisfacción con la vida de diferentes maneras.

Por lo tanto, la investigación centrada en las preguntas se basan mucho más en el dominio específico de conocimiento. Probablemente esto se puede explicar en parte por qué impulsado por los datos de los enfoques se utilizan con menos frecuencia en las ciencias sociales.

4voto

Senseful Puntos 116

Creo que no es posible hacer Bonferoni o similar correcciones de ajuste para la selección de variables en regresión, debido a que todas las pruebas y los pasos que intervienen en el modelo de selección no son independientes.

Uno de los enfoques para formular el modelo de uso de un conjunto de datos, y hacer inferencia sobre un conjunto diferente de datos. Esto se hace en previsión de todo el tiempo que tenemos un conjunto de entrenamiento y un conjunto de pruebas. No es muy común en otros campos, probablemente debido a que los datos son tan preciosas que queremos usar cada observación para la selección del modelo y para la inferencia. Sin embargo, como nota en su pregunta, el inconveniente es que la inferencia es realmente engañosa.

Hay muchas situaciones en las que un enfoque teórico es imposible ya que no hay ninguna teoría bien desarrollada. De hecho, creo que esto es mucho más común que los casos en los que la teoría sugiere un modelo.

4voto

Judioo Puntos 625

Richard Berk tiene un reciente artículo donde se demuestra a través de la simulación de los problemas de espionaje de datos y la inferencia estadística. Como Rob sugerido es más problemático que el de simplemente de corregir por múltiples pruebas de hipótesis.

La Inferencia Estadística, Después De La Selección Del Modelo por: Richard Berk, Lawrence Brown, Linda Zhao Diario de Cuantitativa de la Criminología, Vol. 26, Nº 2. (1 de junio de 2010), pp 217-236.

Versión en PDF aquí

2voto

Scott Cowan Puntos 156

Si entiendo tu pregunta, que la respuesta a tu problema es corregir los p-valores de acuerdo al número de hipótesis.

Por ejemplo Holm-Bonferoni correcciones, donde se ordena la hipótesis (= sus diferentes modelos) por su p-valor y rechazar aquellos con una p samller que (deseado p-valor / índice).

Más sobre el tema puede encontrarse en Wikipedia

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X