3 votos

¿Cómo calcular el error del modelo (como el MSE) para una respuesta proporcional multivariante?

Tengo datos en los que la respuesta es multivariable y proporcional (las filas [observaciones] suman 1). Estoy modelando esta respuesta utilizando una regresión de Dirichlet a través del DirichletReg paquete R donde los predictores son los primeros $m$ componentes principales de un conjunto mayor de variables.

Podría utilizar el AIC/BIC para seleccionar el tamaño del modelo (el valor de $m$ ), pero como se trata de un ejercicio de "predicción", me gustaría poder calcular algún tipo de error para cada una de las $m$ modelos. Si se tratara de una simple regresión lineal, utilizaría el error cuadrático medio o su raíz cuadrada.

En mis datos tengo 4 proporciones medidas para cada respuesta y puedo derivar las proporciones predichas para cada muestra de entrenamiento dado el modelo ajustado. ¿Cuál sería una medida de "error" adecuada para una respuesta proporcional multivariante?

Más información

La variable de respuesta es la proporción de cada uno de los 4 tipos de vegetación alrededor de un lago, para un conjunto de $n$ lagos. Los predictores son los primeros $1, ..., m$ componentes principales de un conjunto de datos de recuentos de granos de polen en $p$ especies. El objetivo es predecir las proporciones de los 4 tipos de vegetación para muestras en las que sólo se conocen los recuentos de polen (como los últimos 10.000 años). Me gustaría calcular un estadístico de "error" basado en la falta de ajuste de la respuesta dado el modelo. Entonces utilizaría un $k$ -fold CV para seleccionar el "mejor" modelo de predicción de las proporciones de los tipos de vegetación.

2voto

Dee Puntos 1

Un pulgar hacia arriba por el hecho de que esté dispuesto a utilizar la validación cruzada. Con demasiada frecuencia, los investigadores (entre los que me incluyo) se limitan a confiar en los estadísticos de elección del modelo, como el AIC y el BIC.

Creo que no hay una respuesta sencilla sobre cómo definir un error de predicción. En última instancia, depende de su función de pérdida. ¿Cuál es el coste asociado a una predicción errónea? ¿Es ese coste el mismo para, por ejemplo, las frecuencias de cero y 50 %?

Tomar este principio en serio podría llevar a una métrica de errores bastante especial. Por ejemplo, se podría decir que la predicción está bien, si reproduce las proporciones de entrenamiento con un diez por ciento de exactitud, y de lo contrario no vale nada. Así, se obtendría una métrica binaria. ¿Esto podría acercarse bastante a cómo se juzgan realmente las predicciones en los artículos biológicos?

De todos modos, reglas como el error cuadrático, la entropía o el error logarítmico son, en última instancia, arbitrarias. Pueden tener propiedades convenientes en algunos modelos paramétricos, pero no son la palabra de Dios.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X