23 votos

¿Para qué tipos de problemas es útil la regresión cuantílica?

Estoy tratando de aprender más sobre la Regresión Cuantil.

Según entiendo, la Regresión Cuantil se utiliza para estimar el cuantil condicional de una variable de respuesta (dadas las variables predictoras).

Matemáticamente, sea $Y$ la variable de respuesta y $X$ un vector de variables predictoras. El modelo de regresión cuantil-ésimo puede escribirse como:

$$ Q_{Y|X}(\tau) = X\beta(\tau) $$

donde $Q_{Y|X}(\tau)$ es la función cuantil condicional de $Y$ dada $X$, y $\beta(\tau)$ es un vector de parámetros desconocidos que dependen del cuantil $\tau$. El objetivo de la regresión cuantil es estimar los parámetros $\beta(\tau)$ para un valor dado de $\tau$.

Estoy tratando de entender: ¿Para qué tipos de problemas es más adecuada la Regresión Cuantil?

Cuando le pregunté a mi profesor en la escuela, mi profesor indicó que la Regresión Cuantil está destinada a aplicaciones en las que podría estar especialmente interesado en modelar el efecto de los predictores en algún cuantil de la respuesta (por ejemplo, la respuesta mediana) en lugar de la respuesta media.

Pero estoy tratando de entender - ¿en qué tipos de situaciones estarías interesado específicamente en modelar un Cuantil de la Variable de Respuesta en lugar de la Respuesta Media? ¿Hay algunas industrias/ámbitos donde esta exigencia surge naturalmente?

Lo más cercano que se me ocurre son situaciones donde la distribución condicional de la respuesta dadas las variables predictoras puede estar muy sesgada, violando parcialmente las suposiciones de la regresión estándar. En tal caso, creo que podría ser de alguna manera más útil modelar algún cuantil de la respuesta (mediante Regresión Cuantil) en lugar de la respuesta media. ¿Es correcto este razonamiento?

21voto

Neal Puntos 316

Un ejemplo de tecnología es el p90 de la velocidad de carga del sitio web o el tiempo de respuesta del servicio. Este análisis también se aplica en logística. Aquí te importa solo cuán mal es la peor experiencia. Normalmente esto es algo que monitoreas al realizar cambios, con alertas que se activan cuando ese cuantil supera cierto umbral. Incluso si, en promedio, el sitio web se carga rápidamente o las compras llegan al día siguiente, quieres conocer los peores escenarios.

En la investigación educativa, a menudo te preocupas por cómo una intervención como un tutor de IA afecta a diferentes tipos de estudiantes. ¿Mueve hacia arriba la cola izquierda (bajas puntuaciones en pruebas) o la cola derecha (ayudando a los estudiantes con las calificaciones más altas)?

El tema común en muchas de estas aplicaciones es que no te interesa la media condicional o cómo cambia, sino otras partes de la distribución.

19voto

dan90266 Puntos 609

La regresión de cuantiles se utiliza para modelar las curvas de crecimiento de los niños. Un pediatra no se sorprende si un niño está por debajo de la altura mediana en función de la edad, pero comienza a preocuparse si la altura del niño está por debajo del percentil 10 de altura dada la edad. La regresión de cuantiles permite la estimación de cuantiles sin asumir una distribución.

Pero hay dos inconvenientes. La regresión de cuantiles necesita que la variable de respuesta sea muy continua (es decir, con pocos empates) y la eficiencia de las estimaciones no es muy buena. En el caso más simple sin predictores y uno predice la mediana, la regresión de cuantiles da exactamente la mediana de la muestra, que tiene una eficiencia $\frac{2}{\pi}$ en comparación con el uso de la media, que también estima la mediana si la distribución resulta ser simétrica. Por lo tanto, se podría decir que la regresión de cuantiles es para tamaños de muestra más grandes.

Los modelos de regresión ordinal semiparamétricos también pueden estimar cuantiles sin asumir una distribución, permiten la presencia de empates arbitrariamente grandes en los datos y también pueden estimar la media y toda la distribución acumulativa de Y. Consulta aquí para más recursos. Los modelos semiparamétricos son muy eficientes en comparación con los modelos paramétricos.

8voto

icelava Puntos 548

Mencionado en la respuesta de dimitriy, pero merecedor de un poco más de detalle: si quieres encontrar un inventario o capacidad objetivo, normalmente no solo querrás satisfacer la demanda promedio, sino lograr un nivel de servicio más alto. (Ten en cuenta que hay diferentes definiciones de "nivel de servicio" en teoría de inventarios, no todas las cuales tienen sentido en cualquier situación dada.)

Por ejemplo, podrías ejecutar una regresión cuantil para prever cuál es el percentil condicional 95 de la demanda total en un supermercado, condicionándolo a predictores como el día de la semana, el día del año, el precio o la actividad promocional. Esta predicción cuantil se convierte entonces en tu inventario objetivo. (Si el percentil 95 es realmente el que maximiza tu beneficio, o tal vez sería mejor apuntar a un percentil 90 o 98, es una pregunta difícil que depende de tu logística y del comportamiento de tus clientes. La pregunta es fácil de responder en una situación de vendedor de noticias, que no siempre es a lo que te enfrentas.)

Por eso la reciente competencia de pronóstico M5, que se enfocó explícitamente en pronósticos de ventas y utilizó datos de Walmart, requería el envío de pronósticos cuantiles en su categoría de "incertidumbre".

3voto

canonacer Puntos 5

Otra respuesta, directamente de un proyecto de la vida real: Imagina que eres un vendedor de comercio electrónico en una plataforma grande (piensa en Amazon, Rakuten, o lo que sea popular en tu área). Ahora quieres una solución basada en datos para informar a tus clientes, para cada uno de tus productos, cuánto tiempo tardará en entregarse. ¿Podrías simplemente hacer una regresión sobre los tiempos de entrega pasados para este tipo de artículo, verdad?

Pero hay un truco: Estas plataformas generalmente requieren que sus vendedores firmen acuerdos de nivel de servicio, y una de las cosas a las que generalmente tienen que comprometerse es que al menos el 90% de sus envíos (o algún otro porcentaje, esto es altamente específico de cada país) lleguen a tiempo, es decir, que el tiempo real de entrega sea menor o igual a lo prometido. Por lo tanto, si quieres un resultado que cumpla con el contrato que has firmado, querrás usar una regresión cuantil del 90%.

2voto

Zizzencs Puntos 1358

Algunos ejemplos prácticos donde he utilizado regresión cuantílica:

Los neonatólogos y obstetras están interesados en predecir el peso al nacer de los bebés. Pero están especialmente interesados en los bebés muy pequeños y muy grandes, ya que aquí es donde son más comunes los problemas (por ejemplo, el bebé necesita atención de emergencia o hay problemas en el parto). Realicé regresión cuantílica en los cuantiles bajos y altos y encontré que los predictores eran bastante diferentes de lo que obtuve para la regresión por mínimos cuadrados ordinarios.

Los epidemiólogos están interesados en la propagación de enfermedades. Trabajé durante mucho tiempo en un lugar que investigaba la propagación del VIH/SIDA. Una forma en que se propagan es a través del sexo, por lo que estábamos interesados en personas que tenían relaciones sexuales con muchos compañeros. Intentar predecir esto resultó ser bastante diferente de predecir el número medio de compañeros. (Este es también un caso en el que los errores no son ni remotamente normales).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X