10 votos

¿Qué podemos decir sobre modelos en datos observacionales en la ausencia de instrumentos?

He tenido en el pasado una serie de preguntas que me relativos a artículos publicados en un número de áreas donde las regresiones (y los modelos relacionados, tales como modelos de panel o GLMs) se utilizan en la observación de los datos (es decir, los datos no se producen por el experimento controlado, en muchos casos - pero no siempre - los datos que se observan a lo largo del tiempo), pero donde no hay ningún intento de introducir variables instrumentales se hace.

He hecho una serie de críticas en la respuesta (como describir los problemas con el sesgo cuando las variables importantes que pueden faltar), pero dado que otras personas aquí, sin duda, será mucho más conocimiento que yo en este tema, pensé que había que preguntar:

  1. ¿Cuáles son las principales cuestiones/consecuencias de tratar de llegar a conclusiones acerca de las relaciones (en particular, pero no limitado a conclusiones causales) en este tipo de situaciones?

  2. Puede algo útil que hacer con los estudios que se ajuste a tales modelos en la ausencia de instrumentos?

  3. ¿Cuáles son algunas buenas referencias (libros o artículos) en los problemas con este modelo (de preferencia con claro no técnicos, la motivación de las consecuencias, ya que normalmente la gente que pregunta tiene una gran variedad de fondos, algunos sin mucho estadísticas) que la gente podría referirse al criticar a un papel? Discusión de las precauciones/problemas con los instrumentos que sería útil también.

(Referencias básicas sobre variables instrumentales son de aquí, aunque si tienes cualquier agregar allí, que también sería útil.)

Los punteros a los buenos ejemplos prácticos de búsqueda y uso de instrumentos sería una ventaja, pero no es central a esta pregunta.

[I probable que señalar a otros a cualquier buen respuestas aquí como tales preguntas vienen a mí. Me puede agregar uno o dos ejemplos de como yo las entiendo.]

8voto

Brettski Puntos 5485

Por lo que la gran mayoría de mi campo (aunque no la parte que me de trabajo en la mayoría) es que se trate sólo con este - el montaje de la GLM-tipo de modelos a los datos de observación. Para la mayor parte, variables instrumentales son una rareza, ya sea debido a una falta de familiaridad con la técnica o, lo que es importante, la falta de un buen instrumento. Para responder a sus preguntas en orden:

  1. El problema principal es, por supuesto, algún tipo de residual de la confusión por un no observados de la variable que está asociada tanto con la exposición y el resultado de interés. El texto de la versión es que su respuesta podría estar equivocado, pero no necesariamente saben cómo o por qué. Las decisiones tomadas en base a esa información (como por ejemplo, si el uso o no de un tratamiento en particular, si X cosa en el medio ambiente es peligroso, etc.) son decisiones utilizando la información incorrecta.

  2. Me gustaría afirmar que la respuesta a esto es sí, porque, por la mayor parte, estos estudios están tratando de llegar a algo donde no hay necesariamente un buen instrumento, o donde la aleatorización es imposible. Así que cuando se llega a esto, la alternativa es "adivinar". Estos modelos son, más que nada, una formalización de nuestros pensamientos y de un sólido intento de acercamiento a la respuesta, y son más fáciles de lidiar con el.

Por ejemplo, usted puede preguntar cómo seria el sesgo tendría que estar en un orden cualitativamente cambiar su respuesta (es decir, "Sí, X es malo para usted..."), y evaluar si o no usted piensa que es razonable, hay un factor desconocido de esa fuerza al acecho fuera de sus datos.

Por ejemplo, el hallazgo de que la infección por VPH es muy fuertemente asociado con el cáncer cervical es un hallazgo importante, y la fuerza de un desmesurados factor que permitiría el sesgo que todo el camino a la nula tendría que ser asombrosamente fuerte.

Por otra parte, cabe señalar que un instrumento no arreglar esto - sólo funcionan en ausencia de alguna ilimitada de asociaciones, e incluso ensayos aleatorios que sufren de problemas (diferencial de deserción escolar entre el tratamiento y los controles, cualquier cambio en el comportamiento post aleatorización, la posibilidad de generalizar con el objetivo real de la población) que también te paliado un poco.

  1. Rothman, Groenlandia y las Pestañas escribió la última edición de la Epidemiología Moderna , que es esencialmente un libro dedicado a tratar de hacer estos de la mejor manera posible.

8voto

Andy Puntos 10250

En contraste a la visión desde el epidemiólogo del lado de la muestra por Fomite, variables instrumentales son esenciales para la caja de herramientas en la economía que se enseña bastante pronto. La razón de esto es que hay un gran enfoque en tratar de responder causal preguntas de investigación económica de hoy en día que se va a ampliar en meras correlaciones son incluso considerado como poco interesante. La principal limitación es que la economía es un campo de por sí es difícil hacer experimentos aleatorios. Si quiero saber lo que es el efecto de la década de la muerte de los padres del niño a largo plazo los resultados de la educación la mayoría de la gente se opondría a hacer esto a través de un estudio aleatorizado de control trail - y con razón. Este folleto de un MIT curso describe en la página 3-5 ¿qué otros problemas que hay con los experimentos.

Para abordar cada uno de los puntos de giro:

  1. Dependiendo de la pregunta que será respondida no es sólo omite variables que pueden invalidar el análisis en la observación de los datos sin el uso de la no-métodos experimentales. La selección de problemas, el error de medición, la causalidad inversa, o la simultaneidad puede ser igualmente importante. El principal problema es que el analista de datos debe ser consciente de las limitaciones de este ajuste. Esto se refiere principalmente a los casos de negocio debido a que en un escenario académico que esto sería descubierto rápidamente. A veces veo a los analistas del mercado que se desea estimar una elasticidad precio para informar a un cliente (por ejemplo, por ¿cuánto cuesta la caída de la demanda si hemos de aumentar los precios, por $x\%$), por lo que la estimación de una ecuación de demanda y completamente olvidar o ignorar el hecho de que la demanda y la oferta se determinó de forma simultánea, y que uno afecta al otro. Así que las consecuencias dependen mucho más en la conciencia del investigador/analista de datos con respecto a las limitaciones de los datos en lugar de los datos en sí, sino las consecuencias que pueden ir desde algo trivial para un extender donde afectan negativamente en los pueblos de la história.
  2. Mostrando las correlaciones pueden ser útiles a veces, realmente depende de la pregunta. Cuando se busca un efecto causal es también suficiente si usted tiene un experimento natural. Los datos del censo en Chile puede ser observacional, pero si quieres saber cómo es el último terremoto afectó el logro educacional (donde los terremotos son sin duda exógeno), a continuación, también los datos de observación está bien para responder a una pregunta casual.
    También es posible un cierto grado para evaluar la endogeneidad sin instrumentos (consulte la página 9 en el citado documento, "Estimar la medida de variables omitidas sesgo"). Para un binario no experimental de tratamiento de $D_i$, se puede calcular el efecto de este tratamiento, hacer lo mismo para las características no observables y pedir qué tan grande sea el cambio en las características no observables deben estar en orden para explicar lo observado el efecto del tratamiento. Si el no cambio debe ser muy grande, podemos ser un poco más de confianza hacia nuestros hallazgos. La referencia de esta es Altonji, el Anciano y Taber (2000).
  3. Probablemente cualquier aplicado economista recomendaría Angrist y Pischke (2009) "en su Mayoría Inofensivas Econometría". Aunque este libro está destinado principalmente a estudiantes de posgrado e investigadores es posible obviar las matemáticas partes de ella y sólo la intuición que está también muy bien explicado. Primero introducir la idea de un entorno experimental, entonces tienden a OLS y sus limitaciones con respecto a la endogeneidad de variables omitidas, la simultaneidad, la selección, etc. y después de discutir ampliamente variables instrumentales con una buena parte de los ejemplos de la aplicada a la literatura. También, se discuten los problemas con variables instrumentales, tales como la debilidad de los instrumentos o el uso de demasiados de ellos. Angrist y Krueger (2001) también proporcionan un panorama no técnico de variables instrumentales y riesgos potenciales, y también tiene una tabla que resume algunos de los estudios y de sus instrumentos.

Probablemente todo esto era mucho más que una típica respuesta aquí debe ser, pero la pregunta es muy amplia. Me gustaría destacar que la variables instrumentales (que a menudo son difíciles de encontrar) no son la única bala en el bolsillo. Hay otros que no sean experimentales de los métodos para descubrir los efectos causales a partir de datos observacionales como de la diferencia-en-diferencias, diseños de discontinuidad en la regresión, la correspondencia, o de regresión de efectos fijos (si nuestra factores de confusión son invariante en el tiempo). Todos estos son discutidos en Angrist y Pischke (2009) y en el documento vinculado en el principio.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X