Estoy tratando con datos de la cual es generada por un proceso complejo, que he elaborado la siguiente; estoy tratando de responder una o más de las siguientes preguntas: a) ¿qué es el derecho de la literatura para buscar trabajo anterior abordar mi problema b) alguien ha solucionado mi problema ya c) si el problema es de la novela (que yo personalmente dudo), ¿cuál es el enfoque adecuado para resolver?
Para $N$ de los individuos, con $M$ asociado covariables, puedo observar los resultados en $J$ clases posibles; por eso, mi diseño de la matriz de $X$ es de dimensión $M$ x $N$ y mi matriz de respuesta $Y$ es de dimensión $N \times J$. Para una clase dada $j$ no es una variable latente $U_{i,j}$ s.t. cuando $U_{i,j} < 0$, $Y_{i,j}=0$ y $Y_{i,j}=1$, de lo contrario . Hasta este punto, si $U \sim MVN(\beta X, \Sigma)$, he descrito un estándar multivariante de regresión probit escenario. Sin embargo, si un determinado $U_{i,j}$ es mayor que todas las otras clases de $U_{i,-j}$ y mayor que la constante de $c_1$, $Y_{i,j} =t$ si $c_{t-1} < U_{i,j} < c_t$ donde $t\in \{1,2,...,T-1\}$; $Y_{i,j}=T$ si $U_{i,j} > c_{T-1}$. Aquí los puntos de corte $c_t$ son desconocidos. Por su parte, la segunda mitad corresponde a una regresión ordinal problema. Sin embargo, junto a este problema parece ser más complejo que cualquiera probit o regresión ordinal.
A continuación se R código para generar los datos de este proceso, donde estoy generando los valores de $U$ directamente sin especificar una relación lineal con la $X$:
library(MASS) # for mvrnorm
N <- 1e3 # num. of observations
J <- 12 # num. of classes
cuts <- c(1.5, 2, 2.25, 2.5, 2.7, 3) # T=6
S <- rWishart(n=1, Sigma=diag(J), df=20) # sample cov. mat.
U <- mvrnorm(n=N, mu=rep(0, J), Sigma=S[,,1]) # generate U
Y <- apply(U, 1, function(u) { # generate Y from U
u <- as.numeric(scale(u)) # s.d. is 1 for identifiability
y <- ifelse(u < 0, 0, 1) # U's extreme enough are observed
cond <- u > cuts[1] & u == max(u) # most extreme U's are ranked
if(any(cond))
y[which(cond)] <- findInterval(u[which(cond)], cuts)
return(y)
}
)
En mi caso, $N$ es de aproximadamente $3500$, $J=12$ y $M=30$, e $T=6$. Los resultados de las clases están correlacionados. Además, los individuos son jerárquicamente relacionados.
Inicialmente, pensé que podría usar PUNTAS para resolver este problema. Antes de implementar el modelo completo, he intentado un hierarhcial multivariante de regresión probit. Sin embargo, ENTRECORTADO que al parecer excesivamente larga para la muestra de la parte posterior. Por lo tanto, desde entonces he estado buscando a través de la simulación de la probabilidad de la literatura por ejemplo, GHK, pero no he encontrado ningún trabajo, reproduciendo el modelo que he descrito anteriormente. Estoy investigando enfoques tales como el cálculo aproximado Bayesiano (ABC), indirecta inferencia, y simular el método de los momentos.
Me estoy perdiendo algo que es obvio? Existen pre-existente de soluciones a mi problema? Hay otros ingeniosos métodos que podría utilizar en su lugar (quizás algo como PLS o CCA)?
Gracias por su ayuda CrossValidated de la gente!