6 votos

Regresión no paramétrica

Estoy llevando a cabo una multiples de primer orden, el análisis de regresión de los datos genéticos. Los vectores de los valores de y no todos siguen una distribución normal, por lo tanto necesito para implementar un no-paramétricos de regresión utilizando los rangos.

Es el lm() función en R adecuado para esto, es decir,

lin.reg <- lm(Y~X*Z)

donde Y, X y Z son vectores de variables categóricas ordinales?

Estoy interesado en el p-valor asignado al coeficiente del término de interacción en el primer modelo de orden. El lm() esta función obtiene a partir de un t-test, es decir, es el coeficiente de interacción significativamente diferentes de cero.

Es la automática aplicación de una prueba t para determinar este valor de p correspondiente cuando el modelo de regresión se llevó a cabo en los datos como se describe?

Gracias.

EDITAR

Los datos de muestra para mayor claridad:

Y <- c(4, 1, 2, 3) # A vector of ranks
X <- c(0, 2, 1, 1) # A vector of genotypes (0 = aa, 1 = ab, 2 = bb)
Z <- c(2, 2, 1, 0)

2voto

patfla Puntos 1

Si su respuesta variable es ordinal, usted puede desear para considerar y "ordenado de regresión logística". Esto es básicamente, en la que el modelo de la probabilidad acumulada {en el simple ejemplo, modelo $Pr(Y\leq 1),Pr(Y\leq 2),Pr(Y\leq 3)$}. Este incorpora la ordenación de la respuesta en el modelo, sin la necesidad de una arbitraria suposición de que transforma la orden de respuesta en un numérica de uno (a pesar de haber dicho eso, esto puede ser un primer paso útil en el análisis de exploración, o en la selección de $X$ $Z$ variables no son necesarios)

Hay una manera que usted puede conseguir el glm() en función de R para darle el MLE para este modelo (de otro modo sería necesario escribir su propio algoritmo para obtener la Emv). Definir un nuevo conjunto de variables, decir $W$, donde estos se definen como

$$W_{1jk} = \frac{Y_{1jk}}{\sum_{i=1}^{i=I} Y_{ijk}}$$ $$W_{2jk} = \frac{Y_{2jk}}{\sum_{i=2}^{i=I} Y_{ijk}}$$ $$...$$ $$W_{I-1,jk} = \frac{Y_{I-1,jk}}{\sum_{i=I-1}^{i=R} Y_{ijk}}$$

Donde $i=1,..,I$ los índices de la $Y$ categorías, $j=1,..,J$ los índices de la $X$ categorías, y $k=1,..,K$ los índices de la $Z$ categorías. A continuación, ajuste un glm() de W X y Z utilizando el servicio gratuito de registro de registro de la función de enlace. Denotando $\theta_{ijk}=Pr(Y_{ijk}\leq i)$ la probabilidad acumulativa, el MLE de la theta (suponiendo un multi-nomial de distribución para $Y_{ijk}$ valores) es, entonces,

$$\hat{\theta}_{ijk}=\hat{W}_{ijk}+\hat{\theta}_{(i-1)jk}(1-\hat{W}_{ijk}) \ \ \ i=1,\dots ,I-1$$

Donde $\hat{\theta}_{0jk}=0$ $\hat{\theta}_{Ijk}=1$ $\hat{W}_{ijk}$ son los valores ajustados de los glm.

Usted puede utilizar la desviación de la tabla (utilizar el anova() función en el glm objeto) para evaluar la importancia de los regresores las variables.

EDIT: una cosa que me olvidé de mencionar en mi primera respuesta fue que en el glm() función, es necesario especificar los pesos cuando se ajusta el modelo a $W$, que son iguales a los denominadores en las respectivas fracciones de la definición de cada una de las $W$.

También se podría tratar de un enfoque Bayesiano, pero lo más probable es necesario utilizar técnicas de muestreo para obtener su parte posterior, y el uso de la probabilidad multinomial (pero parametrizarse con respecto a $\theta_{ijk}$, por lo que la probabilidad de la función tendrá diferencias de la forma $\theta_{ijk}-\theta_{i-1,jk}$), el MLE son una buena "primera grieta" en genuinamente ajuste del modelo, y dar una aproximación Bayesiana de la solución (como te habrás dado cuenta, yo prefiero la inferencia Bayesiana)

Este método está en mis notas de la conferencia, así que no estoy realmente seguro de cómo hacer referencia a ella (no hay referencias en las notas), aparte de lo que acabo de decir.

Sólo otra nota, no voy a insistir mucho en ello, pero me p-valores no son todos los que están agrietados. Un buen post discutiendo esto se puede encontrar aquí. Me gusta Harlod Jeffrey comilla por encima de los valores de p (de su libro la teoría de la probabilidad) "Una hipótesis nula puede ser rechazada porque no predecir algo que no fue observado" (esto es debido a que los valores de p preguntar por la probabilidad de los eventos más extrema de lo que se observa).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X