Estoy trabajando en un proyecto para predecir la duración de la estancia de los pacientes. Mis datos constan de 215.000 filas de las siguientes variables (30 en total):
LOS
(duración de la estancia en días)AGE
(en años)GENDER
MARITAL
DIAGNOSIS 1
DIAGNOSIS 2
DIAGNOSIS 3
- ... y así sucesivamente
Con la excepción de AGE
y LOS
Todas las variables son binarias. La distribución para LOS
está muy sesgada: casi todos los valores se sitúan entre 1 y 30, con valores extremos de 50 a 370 que sólo representan el 0,02% de los datos.
Mi enfoque para modelar la relación entre LOS
y el resto de las variables son las siguientes. En primer lugar, elimine los valores atípicos del 0,02% para la variable dependiente. En segundo lugar, hacer una transformación logarítmica simple de la variable dependiente. Después de realizar estos dos pasos, el LOS
los datos se distribuyen normalmente.
Mi pregunta es: ¿hay alguna razón por la que no deba utilizar simplemente una regresión lineal multivariante en esta normalización? LOS
¿datos?
Cuando hago esto, obtengo valores p altamente significativos y un R-cuadrado de 0,207. Lo cual, según tengo entendido, no es horrible para datos sanitarios complejos (por favor, corríjanme si me equivoco). Este enfoque también da lugar a una buena distribución de los residuos.
Sin embargo, estaba buscando diferentes distribuciones de datos para ver si debería modelar de una manera diferente. Otros modelos de duración de la estancia en Internet tratan los datos como una distribución de Poisson, lo que me llevó a preguntar y, con suerte, a adquirir una mayor comprensión de cómo tratar estos datos.
Entonces, ¿es mi metodología sólida en este caso? Se agradecen todas las opiniones.