Tengo 5 variables y estoy tratando de predecir mi variable de destino que debe ser dentro de la gama 0 a 70.
¿Cómo utilizo este dato para modelar mi objetivo mejor?
Gracias
Tengo 5 variables y estoy tratando de predecir mi variable de destino que debe ser dentro de la gama 0 a 70.
¿Cómo utilizo este dato para modelar mi objetivo mejor?
Gracias
Usted no necesariamente tiene que hacer nada. Es posible que el predictor funcionará bien. Incluso si el predictor extrapolable a valores fuera del rango, posiblemente de sujeción de las predicciones para el rango (es decir, el uso de $\max(0, \min(70, \hat{y}))$ en lugar de $\hat{y}$) hará bien. Cruz-validar el modelo para ver si esto funciona.
Sin embargo, el rango restringido plantea la posibilidad de una relación no lineal entre la variable dependiente ($y$) y las variables independientes ($x_i$). Algunos indicadores adicionales se incluyen:
La mayor variación en los valores residuales al $\hat{y}$ está en la mitad de su rango, en comparación con la variación de los residuos en cualquiera de los extremos de la gama.
Razones teóricas específicas de relaciones no lineales.
Evidencia de modelo mis-especificación (obtenido de la forma habitual).
Importancia de la cuadrática o de alto orden de los términos en el $x_i$.
Considere la posibilidad de una relación no lineal re-expresión de $y$ en el caso de que alguna de estas condiciones.
Hay muchas maneras de re-expresar $y$ crear más relaciones lineales con el $x_i$. Por ejemplo, cualquier aumento de la función $f$ definido en el intervalo de $[0,70]$ puede ser "plegado" para crear un simétrica función creciente a través de $y \to f(y) - f(70-y)$. Si $f$ se hace arbitrariamente grande y negativo como argumento enfoques $0$, el plegado de la versión de $f$ mapa de $[0,70]$ en todos los números reales. Ejemplos de tales funciones incluyen el logaritmo y cualquier poder negativo. Utilizando el logaritmo es equivalente a la "logit enlace" recomendado por @user603. Otra manera es dejar que $G$ ser la inversa de la CDF de cualquier distribución de probabilidad y definir $f(y) = G(y/70)$. El uso de una distribución Normal da el "probit" la transformación.
Una forma de explotar a las familias de las transformaciones es experimentar: probar un probable transformación, realizar una rápida regresión de la transformada $y$ contra la $x_i$, y la prueba de los residuos: deben parecen ser independientes de la predicción de los valores de $y$ (homoscedástica y no correlacionados). Estos son signos de una relación lineal con las variables independientes. Ayuda, también, si los residuos de la espalda-transforma los valores predichos tienden a ser pequeñas. Esto indica que la transformación ha mejorado el ajuste. Para resistir los efectos de los valores extremos, el uso de regresión robusta de métodos tales como la forma iterativa reponderadas de los mínimos cuadrados.
Es importante considerar por qué los valores comprendidos en el rango 0-70 . Por ejemplo, si son el número de respuestas correctas en una prueba de 70 preguntas, debe considerar los modelos para las variables "número de éxitos", como la regresión binomial overdispersed. Otras razones pueden llevar a otras soluciones.
Transformación de datos: cambiar la escala de los datos se encuentran en $[0,1]$ y del modelo utilizando un modelo glm con un enlace logit.
Edit: Cuando usted vuelva a escala un vector (es decir dividir todos los elementos por la entrada más grande), como regla general, antes de hacerlo, de la pantalla (globos oculares) para valores extremos.
ACTUALIZACIÓN
Suponiendo que usted tiene acceso a R, llevan la parte de modelado con una sólida rutina de glm, consulte $\verb+glmrob()+$ en paquete $\verb+robustbase+.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.