5 votos

Por qué i.i.d. es el supuesto más conservador de distribución

Estoy leyendo Replanteamiento de Estadística (Sección 4.3).

Al hablar sobre el yo.yo.d. supuesto utilizado para construir un modelo de regresión lineal - sin saber si la distribución de los valores están correlacionados, el autor dice:

Un momento de reflexión nos dice que esto no es siempre cierto, en un sentido físico. Si la medición de la misma distancia de forma repetida, o el estudio de una población de alturas, es difícil argumentar que cada medición es independiente de los demás. Por ejemplo, a las alturas en las familias se correlaciona porque de alelos compartidos a través de la reciente ascendencia compartida.

El yo.yo.d. asunción no tiene que parecer torpe, sin embargo, como siempre que se recuerde que la probabilidad está en el interior del golem [el modelo], no fuera en el mundo. El yo.yo.d. asunción es acerca de cómo el golem representa su incertidumbre. Es de carácter epistemológico de la asunción. [...] El punto no es decir que la epistemología supera a la realidad, sino que en la ignorancia de este tipo de correlaciones el más conservador de distribución a utilizar es yo.yo.d. [...]

Aún más, hay muchos tipos de correlación, que hacen poco o nada para la forma general de una distribución, pero sólo afectan a la secuencia exacta en la que aparecen los valores. Por ejemplo, los pares de hermanas tienen una alta correlación alturas. Pero la distribución global de las mujeres de altura sigue siendo casi perfectamente normal. En tales casos, yo.yo.d. sigue siendo perfectamente útil, a pesar de ignorar las correlaciones.

¿Por qué se yo.yo.d. el sector más conservador del supuesto de distribución? Porque no introducir supuestos adicionales en el modelo?

10voto

Aksakal Puntos 11351

Creo que el uso de una palabra conservador aquí es muy interesante, por decir lo menos. Yo estoy acostumbrado a decir que no es el más fuerte de asunción, el que es más difícil de probar que se tiene y, francamente, el que es probablemente violado más fácilmente.

Es la suposición de que es más fácil de construir a partir de la hora de enseñar la regresión de la teoría. Usted no necesita preocuparse acerca de las correlaciones y de todos los problemas que traen consigo. Usted puede aplicar fácilmente CLT para obtener la asintótica de las varianzas de los parámetros, etc.

Te darás cuenta de lo fácil que es trabajar con el yo.yo.d. los errores en el momento de empezar a hablar de series de tiempo. De repente te das cuenta de que los supuestos que son algo razonable en el análisis transversal, no se sostienen en el tiempo de la serie por lo general. Incluso en el análisis transversal que usted realmente no necesita independencia y conseguir salirse con la debilitada asunción, por ejemplo, ver de Gauss-Markov teorema.

Me semánticamente es mejor usar una palabra conservador cuando se hace referencia a los más débiles de la asunción, es decir, el que debe ser cierto en la mayoría de las situaciones, no el más fuerte, que mantiene rara vez o nunca. Yo la llamaría yo.yo.d. asunción de la mayoría de los liberales, ya que también libera a usted de la necesidad de tratar con todas las de la correlación y problemas de dependencia, que le permite construir este maravilloso mundo ideal de independiente errores. Yo también podría llamar IID hipótesis extravagantes

5voto

Sean Hanley Puntos 2428

(Debo decir que no he leído el libro, y por lo tanto puede ser la interpretación errónea de este pasaje, o criticar de manera inapropiada. Que dijo...)

No creo que esto es correcto.

  1. El estándar de la regresión de la asunción del yo.yo.d. los errores no pertenecen a la población de la que los datos fueron extraídos. Es acerca de los datos que está utilizando para ajustar el modelo. Es decir, nadie debe creer que todos los humanos de la hembra adulta alturas que han existido o existirán, son independientes uno del otro. Que no puede ser, debido a los genes compartidos, entre otras razones. Sin embargo, es ciertamente posible, y a menudo bastante razonable (en mi humilde opinión) imaginar que los datos de la muestra son independientes, por ejemplo, cuando usted tiene un conjunto de jóvenes, de mujeres, de los cuales son independientes uno del otro. En ese caso, el ajuste de un modelo que asume que los datos son independientes puede ser buena.
  2. La importación de la asunción de la independencia no es para la forma de la distribución de la población. Mientras que eso puede depender de la naturaleza de la no independencia y la estimación del modelo, es a menudo el caso de que la media de las estimaciones son imparciales, incluso cuando los datos no son independientes. En cambio, la preocupación suele ser de aproximadamente el ancho de un intervalo de confianza en torno a que la estimación de la media (o en un encuadre diferente, acerca de la exactitud del valor p de una prueba de ese parámetro).

Como extraído, el comentario parece estar fuera de la base para mí. Yo no soy principalmente un Bayesiano, y estoy bastante menos sofisticado con la estadística Bayesiana, por lo que es posible que hay algunas alternativas Bayesiano framing o interpretación de este ejemplo que el alcoholímetro de la asunción es del todo posible (infinito) de la población, y específicamente acerca de su forma. Pero yo no soy consciente de ello.

2voto

alexs77 Puntos 36

Una posible interpretación de "conservador" es en el contexto de la estadística de prueba. Conservador pruebas de rechazar la hipótesis nula con menos frecuencia de lo que deberían. Un ejemplo de un tratamiento conservador de la prueba es la Prueba Exacta de Fisher: el real de falsos positivos de la tasa de error es menor que el tamaño nominal de la prueba debido a la distribución discreta de la odds ratio bajo permutaciones de los valores de la tabla.

En la regresión lineal, a menudo nos prueba la hipótesis de que uno o más de los parámetros de regresión es 0. Si los errores no son, de hecho, IID, la solución óptima debido a Gauss Teorema de Markov, como @Aksakal se mencionó, es la inversa de la varianza de los mínimos cuadrados ponderados. Ingenuamente, el uso de mínimos cuadrados no ponderados no el sesgo de las estimaciones cuando la media del modelo es válido. La falta de ponderación de no afectar el nivel de la prueba de los parámetros de regresión. La prueba con no ponderado de los mínimos cuadrados puede ser conservador o anticonservative.

Si hay ilimitada de fuentes de la dependencia o de la heterocedasticidad en las observaciones, el robusto sándwich de la varianza del estimador de ecuaciones de estimación generalizada produce errores estándar que son consistentes y producir pruebas del nivel correcto. Yo diría que si estamos hablando de violaciones de los supuestos del modelo, el GEE deben ser mencionados. El GEE no tiene nada que ver con ser conservador, pero la producción correcta de la inferencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X