12 votos

Pregunta de la entrevista de la científica de datos: Regresión lineal baja $R^2$ y que harías

Me enfrenté a una pregunta de una entrevista de trabajo en la que el entrevistador me pidió que supusiera que su $R^2$ es muy baja (entre el 5 y el 10%) para un modelo de elasticidad de precios. ¿Cómo resolverías esta pregunta?

No se me ocurrió otra cosa que el hecho de que haré diagnósticos de regresión para ver qué salió mal o si se debe aplicar algún método no lineal. De alguna manera creo que el entrevistador no estaba satisfecho con mi respuesta. ¿Hay algo más que se hace en tal escenario para ajustar un modelo y usarlo para la predicción del nivel de producción a pesar de que tiene bajo $R^2$ ?

Edita : En una etapa posterior me dieron los datos para modelar el problema durante la entrevista y traté de agregar variables de retardo, impacto del precio de la competencia, maniquíes de estacionalidad para ver si había alguna diferencia. $R^2$ llegó al 17,6 por ciento y su desempeño en la muestra de espera fue pobre. Personalmente creo que no es ético poner un modelo de predicción de este tipo en un entorno vivo, ya que dará resultados erróneos y resultará en la pérdida de clientes (¡imagina usar la recomendación de precios de este modelo en los ingresos de tu empresa!). ¿Hay algo más que se hace en estos escenarios que sea demasiado obvio y que todo el mundo necesite saber? ¿Algo de lo que no soy consciente y que me tienta a decir "una bala de plata"?

Además, imaginemos que después de añadir una variable exógena $R^2$ mejora en un 2% más de lo que se puede hacer en este escenario? ¿Debemos descartar el proyecto de modelación o todavía hay alguna esperanza de desarrollar un modelo de calidad de nivel de producción que se indique por el rendimiento en la muestra de reserva?

Edit2 : He publicado este pregunta en economics.stackexchange.com foro para entender este problema desde la perspectiva de la economía

14voto

¿Y si miramos el problema desde esta perspectiva. La elasticidad del precio es la relación entre la demanda y el precio de un producto.

Cuando el r-cuadrado en esta situación es bajo, podríamos entonces implicar que la relación entre el precio y la demanda de ese producto en particular no es fuerte.

Desde el punto de vista de los precios, podría significar que se ha encontrado un producto al que se puede poner precio de forma arbitraria sin un gran impacto en la demanda O que la demanda es bastante errática a pesar de la diferencia de precios.

Si miras a Los bienes de Veblen son ejemplos de que la elasticidad es inversa. A medida que el precio aumenta, la demanda aumenta.

Si por el contrario, r-cuadrado es bajo, podría significar simplemente una categoría de producto para la que el precio es relativamente poco importante en lo que respecta a la demanda. En mi cabeza, una droga contra el cáncer podría ser algo que se adhiera a esta propiedad. Donde la importancia de la droga supera el precio que ordena y no podría mostrar ningún cambio en la demanda.

Y en conclusión, asumo que la intención del entrevistador podría haber sido juzgar si usted sabía lo que significaba la implicación de un r-cuadrado bajo en lugar de averiguar cómo construir un modelo mejor con un r-cuadrado más alto.

5voto

chuan Puntos 534

No estoy seguro de lo que buscaba el entrevistador, pero cuando me enfrento a un modelo de mal desempeño, estas son las cosas que considero y una respuesta que me encantaría escuchar como entrevistador (he estado entrevistando desde hace un par de años).

1) Obteniendo más datos : Esto no siempre puede ayudar pero hay pocas cosas que pueden ayudar a evaluar los efectos de esta solución:
* Ejecutar el modelo con diferentes tamaños de muestra - si los resultados mejoran con más datos, entonces es razonable suponer que obtener más datos seguirá mejorando el rendimiento del modelo.
* Relación entre características y muestras - después de seleccionar las características intente comprender si tiene suficientes muestras por cada valor de característica. vea una pregunta respondida sobre este tema .
* Faltan valores objetivo - la elasticidad podría no comportarse de manera similar entre diferentes rangos de precios. En una situación en la que los datos de las muestras están sesgados hacia un rango específico hay una buena posibilidad de que no se pueda generalizar (por ejemplo, el 90% de las muestras son para precios entre 0-10 y el otro 10% son para precios entre 1000-10000). Hay formas de abordar este problema aparte de obtener más datos (dividir el entrenamiento del modelo, no usar la regresión).

2) Mejor ingeniería de características : Si tienes suficientes datos y sabes sobre el aprendizaje profundo, entonces tal vez éste sea irrelevante. En caso de que no encaje en los criterios mencionados, concentre sus esfuerzos en este. En los modelos de comportamiento de los usuarios, hay muchas relaciones que nuestra intuición humana entiende mejor que un modelo entrenado por una máquina.
Como en tu caso, en el que diseñaste un par de características más y mejoraste el rendimiento del modelo en gran medida. Este paso es propenso a errores ya que normalmente implica un código basado en la lógica (Si Elses/ Fórmulas matemáticas).

3) Mejor selección de modelos : Como usted sugirió, tal vez un modelo no lineal funcionará mejor. ¿Sus datos son homogéneos? ¿Tiene razones para creer que las características cruzadas explicarán mejor la elasticidad del precio? (estacionalidad * precio de los competidores).

4) Sintonización de hiperparámetros Los hiperparámetros del modelo de búsqueda de cuadrículas (+ resultados de validación cruzada) es una buena práctica, pero según mi experiencia, rara vez mejora el rendimiento en gran medida (probablemente no del 5% al 90%).

Hay más cosas que se pueden hacer, pero estos puntos son bastante genéricos.

2voto

Ankaluth Fadia Puntos 1

Además de lo sugerido por @DaFanat y @Arun, me gustaría añadir que una inspección visual podría ayudar.

Por ejemplo, podría darse el caso de que algunos valores atípicos afecten a su $R^2$ . Habiendo trabajado en problemas de gestión de ingresos, tuve que investigar constantemente puntos de influencia . Muy a menudo los valores atípicos se asociaban a acontecimientos puntuales específicos como campañas de promoción, descuentos, etc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X