4 votos

¿Cómo se relacionan las distribuciones y modelos de regresión?

Esta es probablemente una pregunta muy sencilla para muchos de ustedes, pero es algo que ha sido pobremente cubierto en las estadísticas de los cursos que he tomado hasta la fecha. Hemos hablado extensamente acerca de las distribuciones (normal, binomial, Poisson, etc.) y acerca de los modelos de regresión (lineal, logística, distribución de Poisson, la cox), pero el vínculo entre los dos nunca ha sido debidamente explicado a mí.

Uno de mis diapositivas de la clase establece que "la definición de la distribución define como la varianza de la variable de resultado es definido". Pero no estoy seguro de lo que esto realmente significa en la práctica.

Podría alguien explicar en términos simples cómo distribuciones están vinculados a las regresiones, y qué repercusiones tendría misspecifying una distribución en un modelo lineal generalizado? Tal vez usando una distribución de Poisson y de regresión de Poisson como un ejemplo?

1voto

Huy Pham Puntos 51

Larga historia corta, que está maximizando las probabilidades de la distribución con el fin de estimar los parámetros de la distribución, que son su $\beta s$.

En un modelo de regresión en el interior del modelo lineal generalizado, usted tiene un montón de diferentes tipos de distribuciones que usted posiblemente puede trabajar. Desea estimar la media de la población es $\mu$ media como $x\beta$ donde $\beta$ es un vector de coeficientes o factores de ponderación para cada valor correspondiente de $x$ variable independiente.

Los datos provienen de algún proceso, que lo supongo. Por lo tanto, si los datos de recuento usted piensa que probablemente procede de una distribución de Poisson con algunos parámetros desconocidos. Si es altura, a continuación, se calculan que probablemente la mayoría de las personas se agrupan de manera simétrica alrededor de la media, con un par de extremos en la cola, por lo que dicen que provienen de una distribución normal. Si sus ingresos o los tiempos de reacción, a continuación, a partir de la experiencia de saber que esas cosas son sesgada a la derecha, así que tal vez ellos vienen de una distribución Gamma, o una función Inversa de la distribución Gaussiana. Usted puede incluso acabo de probar y utilizar sus datos para adivinar por la coincidencia de su forma a la de las formas posibles de la distribución, de nuevo con la sesgada ejemplo, no coincidirá con una distribución normal, la cual debe ser aproximadamente simétrica. Y así sucesivamente (que acaba de tratar de adivinar qué distribución coincide con la forma de sus datos o lo que se conoce para reflejar el proceso de su modelización).

Luego de tomar esa distribución, y a maximizar la probabilidad de los datos, ya sea a través de la diferenciación, por ejemplo. para la distribución normal para obtener la regresión, o a través de algún método iterativo, por ejemplo. para la regresión logística. Entonces usted resolver su $\beta s$. En el modelo de riesgos proporcionales de cox, no se utiliza una distribución pero sí maximizar parcial de las probabilidades cada vez que hay un evento, por lo cual es semi paramétrico. Y así sucesivamente.

La clave es que la media de algo que puede ser expresado como $x\beta$. En la regresión de Poisson es en realidad $\mu$ que se estima. por ejemplo. el uso de una identidad simple enlace de $E(Y_i)=x\beta$, pero para la regresión logística es la odds o odds ratio (si es categórico) y para el de riesgos proporcionales de cox, los cocientes de riesgo, y así sucesivamente. Hay una función de enlace, dependiendo de la distribución, por ejemplo. un registro, logit, la identidad, o incluso de la función inversa que se puede aplicar a $x \beta$ a llegar a ser en una forma lineal decir $y=\beta_1 x_1 +\beta_2 x_2 +\beta_3 x_3 +...+\epsilon$ Ahora se ven como una normal de regresión, que por cierto sólo tiene una función de enlace de identidad, por lo que no tienen para transformar a tener que bonito ecuación.

Mis-especificando simplemente significa que usted está sesgada. No importa el tamaño de su muestra se presenta siempre de manera sistemática mal, porque siempre estás tratando de estimar la cosa equivocada. Estás usando la distribución incorrecta para la estimación de $\mu$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X