7 votos

Regresión sobre una variable dependiente de no normal

Necesito hacer una regresión con un no-normal DV para el que no hay una buena no-lineal de la transformación (que yo sepa):

enter image description here

Es una puntuación que va de los 10 a los 50 años, con un pico máximo a las 10, una gota en 11 y regular de un descenso de 11 a 50. La distribución de los residuos no es normal.

enter image description here

Hay más o menos de 500 sujetos en el estudio, y las covariables son todos dicotómica.

Pensé en el uso de n-azulejos y la realización de una regresión ordinal de la variable resultante, pero luego termino con una alta proporción de las celdas vacías, no a causa de un bajo tamaño de la muestra, sino más bien a causa de las varias covariables que necesitan estar en el modelo.

El mejor que podía hacer por ahora es eliminar las covariables y el uso de mujeres (en lugar de, digamos, quintiles) para minimizar el número de celdas vacías. No estoy seguro, sin embargo, en qué medida, evitando las celdas vacías es importante. En comparación con el análisis original sobre un puntaje bruto, la regresión en mujeres con menos covariables parece como un montón de sacrificios.

Basado en el descenso del tamaño de la muestra, y dado el hecho de que la distribución de los residuos no es QUE lejos de ser normal, me pregunto si los resultados de la regresión sería fiable como son.

8voto

dan90266 Puntos 609

Regresión ordinal no es afectada por las celdas vacías de Y. Agrupación de Quantile no es necesario salvo que desea reducir la carga computacional. Probabilidades proporcionales o modelos logísticos ordinales de continuación relación están probable que sean capaces de manejar la distribución de Y trazan (con ninguna agrupación de Y).

7voto

Mike Moore Puntos 641

La normalidad de la asunción es una cómoda propiedad de modelo de los residuos, ya que permite corregir las inferencias acerca de los parámetros estimados y los valores críticos de muchas otras pruebas también dependen de este supuesto (por lo tanto algunas correcciones que deben hacerse, o usted puede tomar aproximadamente más estricta de la regla-de-pulgar criterios, aumentando el rango aceptable de las pruebas), sin embargo , no arruine los estimadores de regresión.

Por lo tanto se puede (usted todavía necesita para comprobar los otros supuestos) producir portado bien las predicciones, pero de minería de datos y comprobación de hipótesis sería un poco más difícil. En este punto estoy de acuerdo con Huber que usted necesita para aclarar el propósito del modelo.


Con respecto a algunos consejos:

A primera vista parece que su distribución después de $Y-10$ transformación, podría ser aproximada por algunas versiones truncadas de distribuciones continuas: exponencial (Gamma), log-normal, Pareto o algunos otros. Así, en la log-normal caso, usted todavía puede moverse a algo cercano a la normalidad.

Otra opción podría ser que se trate de algo así como el montaje de la combinación de generalizada de la función logística y la regresión logística. Ya sabes que los límites superior e inferior parece factible.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X