6 votos

Distribución de la familia para una relación de la variable dependiente en una estimación de ecuaciones generalizadas

Tengo varias variables dependientes que son medidas de la desproporcionalidad racial; he calculado como:

% de eventos causados por minorías raciales / grupo % de los eventos causados por el origen racial de la mayoría en el grupo de

Tengo una variable dependiente para cada uno de minorías raciales grupo en mi muestra. Estoy corriendo longitudinal de Ecuaciones de Estimación Generalizada (GEE) en estos modelos, sin embargo estoy un poco perplejo en cuanto a que la familia es apropiado para estas variables dependientes. El intervalo de probabilidades para mi proporciones se truncan a 0, ya que no es posible tener valores negativos en mi DVs. Esto me hace cuestionar la validez de la utilización de una Gaussiana de la familia para mis modelos.

La idea detrás de estas variables es que una proporción mayor que 1 indica un cierto nivel de carga mayor de eventos que una minoría racial está dando en comparación con la racial de la mayoría, y una proporción de menos de 1 indica lo contrario.

  • ¿Cuál sería la más apropiada a la familia a utilizar para mi GEE regresiones?

EDITAR:

Yo misspoke sobre la desproporcionalidad racial medida que yo estaba usando. La fórmula correcta es:

% eventos por la minoría / % de la matrícula total que es la minoría MÁS % eventos por los no-minoría / % de la matrícula total que no es de la minoría

Porque son las proporciones, el número de observaciones con valor menor que 1 es comparable con el número de observaciones mayor que 1, con el límite inferior 0 y el límite superior no acotada. Buscando en los histogramas de mis variables de respuesta, que sin duda parecen ajustarse a una distribución binomial negativa mejor que el normal. El QIC (GEE ajuste a AIC) confirma esta sospecha. Mis preguntas ahora son:

  • ¿Puedo confiar en esta evidencia de seguir adelante con la binomial negativa de la familia?
  • Si es así, ¿cómo puedo posiblemente interpretar la exponentiated coeficientes de los modelos resultantes? Ellos no ven a ser la Tasa de Incidencia de Ratios, como uno podría interpretar a partir de variables de conteo...

1voto

patfla Puntos 1

la máxima entropía es una buena manera de ir aquí. Con la máxima entropía, se especifica la "estructura" que su modelo es que depende de, y el hace el resto. Tiene una forma similar a la forma generalizada de la ecuación de estimación. Así que tenemos un desconocido (o "al azar") variable $x$ que es el objeto de inferencia (puede ser un vector). Se puede tomar en $n$ valores $x_1,x_2,\dots,x_n$. Tenemos $m$ "modelo de funciones" $g_{k}(x)$ $(k=1,\dots,m)$ y $G_{k}$ "limitaciones" y las dos están relacionadas por:

$$\sum_{i=1}^{n}p_i g_{k}(x_i)=G_{k}$$

Donde $p_i=Pr(x=x_i)$ es el "desconocido" (más apropiadamente "sin asignar") distribución de probabilidad. Por la elección de la distribución de máxima entropía $-\sum_i p_i log(p_i)$ consigue:

$$Pr(x=x_i||G_{1},\dots,G_{m})=p_i=exp\left(-\lambda_0-\sum_{k=1}^{m}\lambda_{k}g_{k}(x_i)\right)$$

Donde $\lambda_{k}$ se eligen de manera que las restricciones anteriores se cumplen, y que el $p_i$ total $1$. Esto requiere discretos espacio muestral, para el caso continuo, es la misma forma con 2 excepciones:

  1. La suma es reemplazado por una integral con respecto a $dx$
  2. La probabilidad se multiplica por el invariante de medida $m(x)$, que en su caso es la probabilidad de transformar la indebida $Dir(0,\dots,0)$ a "probabilidades".

Así que usted tiene:

$$p(x|G_{1},\dots,G_{m})=m(x)exp\left(-\lambda_0-\sum_{k=1}^{m}\lambda_{k}g_{k}(x)\right)dx$$

Ahora lo que se va a encontrar es que en la solución de los multiplicadores de lagrange $\lambda_{k}$ obtendrá un conjunto de ecuaciones que un aspecto idéntico a GEE ecuaciones. Por lo tanto el algoritmo MaxEnt básicamente le dice "que modelo de probabilidad", es el más probable para ser coherente con su GEE ecuaciones. Usted puede utilizar esta distribución para hacer predicciones y da una indicación de su exactitud.

Nota si las restricciones $G_{k}$ no son conocidos, esto se resuelve multiplicando el anterior $p(x||G_{1},\dots,G_{m})$ por una antes de la densidad de $G_{k}$ y, a continuación, la integración de salida $G_{k}$ a partir de la probabilidad, lo que permite la estructura inducida por $G_{k}$ a ser incorporados en el modelo, así como la incertidumbre sobre el verdadero valor de $G_{k}$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X