15 votos

Regresión lineal cuando Y está acotado y es discreto

La pregunta es sencilla: ¿Es apropiado utilizar la regresión lineal cuando Y está acotado y es discreto (por ejemplo, la puntuación del examen 1~100, alguna clasificación predefinida 1~17)? En este caso, ¿es "no bueno" utilizar la regresión lineal, o es totalmente erróneo utilizarla?

14voto

Nick Cox Puntos 22819

Cuando una respuesta o resultado $Y$ está acotado, surgen varias cuestiones a la hora de ajustar un modelo, entre ellas las siguientes:

  1. Cualquier modelo que pueda predecir valores de la respuesta fuera de esos límites es, en principio, dudoso. Por lo tanto, un modelo lineal podría ser problemático, ya que no hay límites en $\hat Y = Xb$ para los predictores $X$ y los coeficientes $b$ siempre que el $X$ son a su vez ilimitadas en una o ambas direcciones. Sin embargo, la relación puede ser lo suficientemente débil como para que esto no afecte y/o las predicciones pueden permanecer dentro de los límites sobre el rango observado o plausible de los predictores. En un extremo, si la respuesta es una media $+$ ruido apenas importa a qué modelo se ajusta uno.

  2. Como la respuesta no puede sobrepasar sus límites, a menudo es más plausible una relación no lineal con respuestas predichas que se acercan asintóticamente a los límites. Las curvas o superficies sigmoides, como las predichas por los modelos logit o probit, son atractivas en este sentido y ahora no son difíciles de ajustar. Una respuesta como la alfabetización (o la fracción que adopta cualquier idea nueva) suele mostrar una curva sigmoide en el tiempo y de forma plausible con casi cualquier otro predictor.

  3. Una respuesta acotada no puede tener las propiedades de varianza que se esperan en una regresión simple o sencilla. Necesariamente, a medida que la respuesta media se aproxima a los límites inferior y superior, la varianza siempre se aproxima a cero.

Hay que elegir un modelo en función de lo que funciona y del conocimiento del proceso generador subyacente. El hecho de que el cliente o el público conozcan determinadas familias de modelos también puede orientar la práctica.

Obsérvese que evito deliberadamente juicios generales como bueno/no bueno, apropiado/no apropiado, correcto/incorrecto. Todos los modelos son, en el mejor de los casos, aproximaciones, y no es fácil predecir qué aproximación es la más adecuada para un proyecto. Yo mismo suelo preferir los modelos logit como primera opción para las respuestas limitadas, pero incluso esa preferencia se basa en parte en la costumbre (por ejemplo, cuando evito los modelos probit sin ninguna razón de peso) y en parte en el lugar donde voy a comunicar los resultados, normalmente a lectores que están, o deberían estar, bien informados estadísticamente.

Sus ejemplos de escalas discretas son para puntuaciones de 1 a 100 (en las tareas que califico, el 0 es ciertamente posible) o clasificaciones de 1 a 17. Para este tipo de escalas, normalmente pensaría en ajustar modelos continuos a respuestas escaladas a [0, 1]. Sin embargo, hay profesionales de los modelos de regresión ordinal que no tendrían inconveniente en ajustar dichos modelos a escalas con un número bastante grande de valores discretos. Me complace que respondan si están dispuestos a hacerlo.

9voto

Isaac Abraham Puntos 1102

Trabajo en la investigación de servicios sanitarios. Recogemos resultados comunicados por los pacientes, por ejemplo, la función física o los síntomas depresivos, y con frecuencia se puntúan en el formato que usted ha mencionado: una escala de 0 a N generada por la suma de todas las preguntas individuales de la escala.

La gran mayoría de la literatura que he revisado ha utilizado simplemente un modelo lineal (o un modelo lineal jerárquico si los datos provienen de observaciones repetidas). Todavía no he visto a nadie utilizar la sugerencia de @NickCox de un modelo logit (fraccionario), aunque es un modelo perfectamente plausible.

La teoría de la respuesta al ítem me parece otro modelo estadístico plausible de aplicar. Aquí es donde se asume algún rasgo latente $\theta$ causa las respuestas a las preguntas utilizando un modelo logístico o logístico ordenado. Eso maneja intrínsecamente los problemas de limitación y posible no linealidad que Nick planteó.

El gráfico que aparece a continuación procede de mi próximo trabajo de tesis. En él, he ajustado un modelo lineal (en rojo) a una puntuación de síntomas depresivos convertida en puntuaciones Z, y un modelo IRT (explicativo) en azul a las mismas preguntas. Básicamente, los coeficientes de ambos modelos están en la misma escala (es decir, en desviaciones estándar). De hecho, hay bastante acuerdo en el tamaño de los coeficientes. Como ha aludido Nick, todos los modelos son erróneos. Pero es posible que el modelo lineal no sea tan erróneo como para utilizarlo.

enter image description here

Dicho esto, un supuesto fundamental de casi todos los modelos actuales de TRI es que el rasgo en cuestión es bipolar, es decir, que su apoyo es $-\infty$ a $\infty$ . Probablemente no sea así en el caso de los síntomas depresivos. Los modelos para los rasgos latentes unipolares todavía están en desarrollo, y el software estándar no puede ajustarse a ellos. Muchos de los rasgos que nos interesan en la investigación de los servicios sanitarios son probablemente unipolares, por ejemplo, los síntomas depresivos, otros aspectos de la psicopatología, la satisfacción del paciente. Así que el modelo IRT también puede ser erróneo.

(Nota: el modelo anterior se ha ajustado utilizando el modelo de Phil Chalmers mirt en R. Gráfico elaborado con ggplot2 y ggthemes . El esquema de colores se basa en el esquema de colores por defecto de Stata).

6 votos

El hecho de que los modelos lineales se utilicen ampliamente no significa que sean adecuados. Muchas personas utilizan modelos lineales porque es lo único que conocen o con lo que se sienten cómodos.

1 votos

La literatura médica está especialmente plagada de malas prácticas que se propagan por una ideología del tipo "esto es lo que hace este campo/revista". Como regla general, no utilizaría o dejaría de utilizar algo sólo por su aparición, por muy común que sea, en la investigación médica.

1voto

Aleksandr Levchuk Puntos 1110

Observa los valores predichos y comprueba si tienen más o menos la misma distribución que los Y originales. Si este es el caso, la regresión lineal probablemente esté bien. y ganarás poco mejorando tu modelo.

1voto

Stat_Programmer Puntos 56

Una regresión lineal puede describir "adecuadamente" esos datos, pero es poco probable. Muchos de los supuestos de la regresión lineal tienden a violarse en este tipo de datos hasta tal punto que la regresión lineal resulta desaconsejable. Me limitaré a elegir algunos supuestos como ejemplo,

  1. Normalidad - Incluso ignorando la discreción de tales datos, éstos tienden a mostrar violaciones extremas de la normalidad porque las distribuciones están "cortadas" por los límites.
  2. Homocedasticidad - Este tipo de datos tiende a violar la homocedasticidad. Las varianzas tienden a ser mayores cuando la media real está hacia el centro del rango, en comparación con los bordes.
  3. Linealidad - Dado que el rango de Y está acotado, la suposición se viola automáticamente.

Las violaciones de estos supuestos se mitigan si los datos tienden a caer alrededor del centro del rango, alejándose de los bordes. Pero realmente, la regresión lineal no es la herramienta óptima para este tipo de datos. Otras alternativas mucho mejores podrían ser la regresión binomial o la regresión de Poisson.

2 votos

Es difícil ver que la regresión de Poisson es un candidato para las respuestas doblemente limitadas.

0voto

qwr Puntos 151

Si la respuesta sólo toma un par de categorías, usted puede ser capaz de utilizar métodos de clasificación o regresión ordinal si su respuesta variable es ordinal.

Llanura de regresión lineal ni se dará categorías discretas ni delimitada variables de respuesta. El último puede ser corregido mediante el uso de un modelo logit como en la regresión logística. Algo así como la nota de un examen con 100 categorías de 1 a 100, que bien podría simplificar su predicción y el uso de un almacén de variable de respuesta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X