Tengo datos en los que la respuesta es multivariable y proporcional (las filas [observaciones] suman 1). Estoy modelando esta respuesta utilizando una regresión de Dirichlet a través del DirichletReg paquete R donde los predictores son los primeros $m$ componentes principales de un conjunto mayor de variables.
Podría utilizar el AIC/BIC para seleccionar el tamaño del modelo (el valor de $m$ ), pero como se trata de un ejercicio de "predicción", me gustaría poder calcular algún tipo de error para cada una de las $m$ modelos. Si se tratara de una simple regresión lineal, utilizaría el error cuadrático medio o su raíz cuadrada.
En mis datos tengo 4 proporciones medidas para cada respuesta y puedo derivar las proporciones predichas para cada muestra de entrenamiento dado el modelo ajustado. ¿Cuál sería una medida de "error" adecuada para una respuesta proporcional multivariante?
Más información
La variable de respuesta es la proporción de cada uno de los 4 tipos de vegetación alrededor de un lago, para un conjunto de $n$ lagos. Los predictores son los primeros $1, ..., m$ componentes principales de un conjunto de datos de recuentos de granos de polen en $p$ especies. El objetivo es predecir las proporciones de los 4 tipos de vegetación para muestras en las que sólo se conocen los recuentos de polen (como los últimos 10.000 años). Me gustaría calcular un estadístico de "error" basado en la falta de ajuste de la respuesta dado el modelo. Entonces utilizaría un $k$ -fold CV para seleccionar el "mejor" modelo de predicción de las proporciones de los tipos de vegetación.