2 votos

¿Qué es más apropiado? ¿Regresión de Poisson o regresión lineal regular?

Estoy trabajando en un proyecto para predecir la duración de la estancia de los pacientes. Mis datos constan de 215.000 filas de las siguientes variables (30 en total):

  • LOS (duración de la estancia en días)
  • AGE (en años)
  • GENDER
  • MARITAL
  • DIAGNOSIS 1
  • DIAGNOSIS 2
  • DIAGNOSIS 3
  • ... y así sucesivamente

Con la excepción de AGE y LOS Todas las variables son binarias. La distribución para LOS está muy sesgada: casi todos los valores se sitúan entre 1 y 30, con valores extremos de 50 a 370 que sólo representan el 0,02% de los datos.

Mi enfoque para modelar la relación entre LOS y el resto de las variables son las siguientes. En primer lugar, elimine los valores atípicos del 0,02% para la variable dependiente. En segundo lugar, hacer una transformación logarítmica simple de la variable dependiente. Después de realizar estos dos pasos, el LOS los datos se distribuyen normalmente.

Mi pregunta es: ¿hay alguna razón por la que no deba utilizar simplemente una regresión lineal multivariante en esta normalización? LOS ¿datos?

Cuando hago esto, obtengo valores p altamente significativos y un R-cuadrado de 0,207. Lo cual, según tengo entendido, no es horrible para datos sanitarios complejos (por favor, corríjanme si me equivoco). Este enfoque también da lugar a una buena distribución de los residuos.

Sin embargo, estaba buscando diferentes distribuciones de datos para ver si debería modelar de una manera diferente. Otros modelos de duración de la estancia en Internet tratan los datos como una distribución de Poisson, lo que me llevó a preguntar y, con suerte, a adquirir una mayor comprensión de cómo tratar estos datos.

Entonces, ¿es mi metodología sólida en este caso? Se agradecen todas las opiniones.

4voto

Josh Pearce Puntos 2288

El LOS es realmente muy difícil de trabajar debido a su estructura de cola altamente no trivial. Encontrará muchos problemas, como la sobredispersión y la escasa previsibilidad de las colas muy largas. El problema típico es que habrá pacientes con una LOS increíblemente larga que afectará gravemente a las predicciones de las estimaciones, y estos no deben ser desechados como valores atípicos porque contienen información sobre situaciones poco frecuentes, a diferencia del paciente sano medio.

Se han escrito muchos artículos sobre la predicción del LOS. Para enumerar algunos:

Comparación de métodos de regresión para modelar la duración de la estancia en cuidados intensivos

Una revisión de los estimadores estadísticos de la duración de la estancia ajustada al riesgo: análisis de la base de datos de pacientes adultos de cuidados intensivos de Australia y Nueva Zelanda, 2008-2009

Yo sugeriría probar algunas de las técnicas mencionadas en la segunda referencia. En general, un modelo GLM vinculado al logaritmo para la LOS le dará un rendimiento aceptable para una LOS pequeña. A veces se utilizan binomios negativos para compensar la sobredispersión, pero dudo que la importante inversión que supone su cálculo le proporcione un mejor rendimiento que un GLM simple.

En la segunda referencia, también encontrará algunas sugerencias para descartar los valores atípicos. Por ejemplo, a veces se utiliza el 0,01% más alto. A efectos de facturación, algunas compañías de seguros descartan los períodos de más de un año porque suponen un nuevo ciclo de facturación.

1voto

Zatatata Puntos 71

No veo ningún problema importante en su planteamiento. Pero no cuento. ¿La audiencia de su informe ve algún problema importante en su enfoque? El tamaño de tu muestra es enorme, así que el CLT te va a ayudar mucho. Básicamente estás utilizando un modelo log-lineal.

Me preocuparía un poco por la sobredispersión (que los diferentes grupos (representados por sus predictores) no compartan REALMENTE una distribución de Poisson subyacente común). Puede comprobarlo viendo si las diferentes combinaciones de predictores (más comunes) generan realmente datos simulados que se parecen a sus datos reales. Si simulan datos que parecen estrechos en comparación con sus datos reales, tiene un problema.

Por cierto, no es difícil modelar esto como una regresión de Poisson sin hacer el supuesto de normalidad subyacente. Se trata simplemente de un modelo lineal generalizado. Si se hace así, se puede prescindir de la preocupación por la sobredispersión al modelarlo como una binomial negativa (que permite una sobredispersión considerable).

Otra cosa a tener en cuenta: El R-cuadrado, etc., tiende a centrarse en dar en el blanco. Si su análisis es de control de costes, puede que quiera considerar la regresión cuantílica u otros análisis de menos-que/mayor-que o la ponderación de los errores. Su transformación logarítmica le dificulta controlar o incluso analizar adecuadamente este aspecto de los datos. Si su modelo predice 3 días pero la estancia es de 1 día, ¿es lo mismo que si su modelo predice 3 días pero la estancia es de 9 días? ¡¡¡El modelo logarítmico dice que son el mismo error!!! ¿Es eso lo que quiere decir realmente?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X