15 votos

¿Realmente necesitamos para incluir "todos los predictores?"

Un supuesto básico de la utilización de modelos de regresión para la inferencia es que "todos los predictores" han sido incluidos en la predicción de la ecuación. La razón es que la no inclusión de un importante en el mundo real factor que conduce a la sesgada de los coeficientes y por lo tanto inexacta inferencias (he.e, sesgo de variable omitida).

Pero en la práctica de investigación, he nunca visto alguien como algo parecido a "todos los predictores." Muchos fenómenos tienen una gran variedad de causas importantes, y sería muy difícil, si no imposible, a todos ellos. Un brazalete ejemplo es el modelado de la depresión como un resultado: No se ha construido nada que se acerque a un modelo que incluye a "todas las variables relevantes": por ejemplo, de los padres de la historia, los rasgos de personalidad, apoyo social, de ingresos, de sus interacciones, etc., etc...

Por otra parte, el ajuste de un modelo complejo, que llevaría a altamente inestable, a menos que las estimaciones no eran muy grandes tamaños de muestra.

Mi pregunta es muy simple: Es la suposición de/consejos para "incluir todos los predictores" algo que nos "dicen", pero nunca realmente significa? Si no, entonces ¿por qué nos da como real modelado de asesoramiento?

Y esto significa que la mayoría de los coeficientes son probablemente engañosa? (por ejemplo, un estudio sobre los factores de la personalidad y la depresión que sólo utiliza varios predictores). En otras palabras, ¿qué tan grande de un problema es el de las conclusiones de nuestras ciencias?

18voto

dan90266 Puntos 609

Tienes razón - rara vez se nos realista al decir "todos los predictores". En la práctica podemos estar satisfechos con la inclusión de predictores que explicar las principales fuentes de variación en $Y$. En el caso especial de elaboración de inferencias acerca de un factor de riesgo o de tratamiento en un estudio observacional, rara vez es lo suficientemente bueno. Por eso, el ajuste por factores de confusión debe ser altamente agresivo, incluyendo las variables que podrían estar relacionadas con el resultado y podría estar relacionado con el tratamiento de elección, o el factor de riesgo que usted está tratando de dar a conocer.

Es interesante que con la normal modelo lineal, se omite covariables, especialmente si ortogonal incluyen covariables, puede ser pensado sólo como la ampliación del término de error. En modelos no lineales (logística, Cox, muchos otros) omisión de variables que pueden sesgar los efectos de todas las variables incluidas en el modelo (debido a la no-colapso de la odds ratio, por ejemplo).

9voto

Aksakal Puntos 11351

Sí, usted debe incluir a todas las "variables relevantes", pero debes ser inteligente al respecto. Usted debe pensar en las formas de construir los experimentos que aislar el impacto del fenómeno de cosas no relacionadas, que es un montón en el mundo real (en contraposición a una sala de clase) de la investigación. Antes de entrar en las estadísticas, que tiene que hacer el trabajo pesado en su dominio, no en las estadísticas.

Os animo a no ser cínico acerca de la inclusión de todas las variables relevantes, porque no sólo es un objetivo noble, pero también porque a menudo es posible. No decimos esto por el simple hecho de decirlo. Queremos decir realmente. De hecho, el diseño de experimentos y estudios que son capaces de incluir todas las variables relevantes es lo que hace que la ciencia sea realmente interesante, y diferente de la mecánica de la caldera de la placa de "experimentos".

Para motivar a mi declaración, me voy a dar un ejemplo de cómo Galileo estudió la aceleración. He aquí su descripción de un experimento (de esta página web):

Una pieza de moldura de madera o scantling, acerca de 12 codos de largo, la mitad de un codo de ancho, y tres dedos mangas de espesor, fue tomada; en su borde fue cortar un canal un poco más de un dedo de ancho; tener hecha esta ranura es muy recto, liso y pulido, y de haber forrado con pergamino, también como lisa y pulida como sea posible, hemos creado a lo largo de un duro, suave, y muy redondo balón de bronce. Después de haber colocado esta placa en una posición inclinada, levantando un extremo de uno o dos codos por encima de los otros, hemos lanzado la pelota, como yo decía, a lo largo del canal, teniendo en cuenta, en una manera en la actualidad se han descrito, el el tiempo requerido para realizar el descenso. Hemos repetido este experimento más de una vez en el fin de medir el tiempo con una precisión tal que el la desviación entre dos observaciones nunca excedió de una décima parte de un pulso-beat. Después de haber realizado esta operación y garantizado nosotros mismos, de su fiabilidad, que ahora lanzado la pelota a solo un cuarto de la longitud de la canal; y de haber medido el tiempo de su el descenso, hemos encontrado que es precisamente la mitad de la anterior. Luego hicimos otras distancias, en comparación con el tiempo en toda la longitud con que para la mitad, o con que dos tercios o tres cuartas partes, o de hecho para cualquier fracción; en este tipo de experimentos, que se repite un total de cien veces, nos siempre encontramos que los espacios atravesados eran el uno al otro como el los cuadrados de los tiempos, y esto era cierto para todas las inclinaciones de la plano, es decir, de la canal, por el que se rodó la pelota. Tambien se observó que los tiempos de descenso, por diversas inclinaciones de la avión, llevaba el uno al otro, precisamente, esa relación de la que, como veremos más tarde, el Autor había previsto y ha demostrado por ellos.

Para la medición del tiempo, se empleó un vaso grande de agua colocado en una posición elevada; a la parte inferior de este buque fue soldados de un tubo de pequeño diámetro, dando un fino chorro de agua que nos recoger en un pequeño vaso durante el tiempo de cada descenso, si para toda la longitud de la canal o en parte de su longitud; el el agua recogida se pesó, después de cada descenso, en un muy balance preciso; las diferencias y las relaciones de estos pesos se nos dio las diferencias y proporciones de las veces, y esto con tanta exactitud que aunque la operación se repitió muchas, muchas veces, no se no apreciable discrepancia en los resultados.

Así, Galileo modelo fue $$d=gt^2,$$ where $d$ is the distance traveled, $g$ - acceleration and $t$ - time. He would roll a ball at the full distance $d_0=1$ and establish the base time $t_0$. He proceeded to conduct 100 measurements at different $d_i$ measuring times $t_i$. Then he calculated $d_0/d_i$ and $t_0^2/t_i^2$. If his model was right then you'd have $$\frac{d_0}{d_i}=\frac{t_0^2}{t_i^2}$$.

Preste atención a cómo se mide el tiempo. Es tan crudo que me recuerda cómo en estos días antinatural de ciencias de la medida de sus variables, pensar en la "satisfacción del cliente" o "utilidad". Él menciona que el error de medición se encontraba dentro de la décima parte de una unidad de tiempo, por cierto.

Hizo que él se incluyen todas las variables relevantes? Sí lo hizo. Ahora, usted tiene que entender que todos los cuerpos se atraen entre sí por la gravedad. Así que, en teoría para calcular la exacta de la fuerza sobre la pelota tienes que añadir a cada cuerpo en el universo de la ecuación. Por otra parte, mucho más importante es que él no incluyen la resistencia de la superficie, el arrastre de aire, momento angular, etc. Hizo todas estas impacto de sus medidas? Sí. Sin embargo, no fueron relevantes para lo que él estaba estudiando, porque él fue capaz de reducir o eliminar su impacto aislando el impacto de la propiedad que estaba estudiando.

Ahora, usted diría que su coeficiente (precisamente 2 de $t^2$) era engañosa porque "no control de la presión de aire y los cambios de temperatura entre los experimentos"? No. A pesar de todos los problemas y limitaciones que él fue capaz de establecer correctamente la principal ley del movimiento, que aún se mantiene hoy en locos de precisión! Él fue capaz de lograr esto sin paquetes estadísticos y los equipos, ya que él había diseñado un gran experimento de tal manera que la parte estadística se dictó la trivial y casi irrelevante. Esa es la idea situación en la que te gustaría ser.

6voto

Eero Puntos 1612

Para los supuestos del modelo de regresión para mantener a la perfección, todos los predictores deben ser incluidos. Pero ninguno de los supuestos en cualquier análisis estadístico mantiene perfectamente y mucho de práctica de la estadística se basa en "lo Suficientemente Cerca".

Con el Diseño de experimentos y adecuada aleatorización, el efecto de los términos no incluidos en los modelos, a menudo puede ser ignorado (se supone la igualdad de la oportunidad de la aleatorización). Pero, la regresión se utiliza generalmente cuando se completa la aleatorización no es posible dar cuenta de todas las posibles variables no incluidas en el modelo, por lo que su pregunta no es importante.

Casi cada modelo de regresión nunca ajuste es probablemente faltan algunos predictores potenciales, pero "no Sé", sin ninguna otra aclaración no permitir el trabajo de los estadísticos para seguir trabajando, así que tratamos de nuestro mejor esfuerzo y, a continuación, tratar de sacar lo mucho que la diferencia entre la hipótesis y la realidad va a afectar nuestros resultados. En algunos casos la diferencia de los supuestos que se hace muy poca diferencia y no nos preocupamos mucho por la diferencia, pero en otros casos puede ser muy grave.

Una opción cuando usted sabe que no puede ser predictores que no fueron incluidos en el modelo que sería relevante es hacer un análisis de sensibilidad. Este mide la cantidad de sesgo sería posible sobre la base de las posibles relaciones con los desmesurados variable(s). Este papel:

Lin, DY y Psaty, BM y Kronmal, RA. (1998): la Evaluación de la La sensibilidad de los Resultados de la Regresión No medibles factores de Confusión en Estudios Observacionales. La biometría, 54 (3), Sep, pp 948-963.

da algunas herramientas (y ejemplos) de un análisis de sensibilidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X