Tengo una tienda online y estoy intentando encontrar los factores que podrían predecir la rentabilidad de una mercancía. Para ello, he realizado una regresión lineal con el beneficio como variable dependiente. Para las variables independientes, he utilizado todos los datos que tengo registrados sobre cada mercancía, que incluyen cosas como el número de competidores, los precios de los competidores, el año de producción, etc. La idea es crear una lista de criterios para determinar si debo o no vender una mercancía determinada.
Sin embargo, el resultado es siempre obvio: el precio de venta y el coste de compra son los únicos predictores significativos (hay otras variables estadísticamente significativas, pero su beta es muy baja). Dado que obviamente afectarían al beneficio, ¿debo excluirlas?
He intentado excluirlos y el resultado es mucho más interesante, pero no sé si son válidos. También he probado a cambiar la variable dependiente del beneficio por el precio de venta y los resultados son idénticos.
0 votos
La prueba y el error son esenciales. Pruebe a dividir los datos originales en conjuntos de "entrenamiento" y "pruebas", de modo que pueda utilizar los conjuntos de $\beta$ de su modelo para predecir futuros resultados fuera de juego. A continuación, puede utilizar ambos modelos para ver cuál es mejor en la predicción. Como ampliación, estudie la regresión por mínimos cuadrados parciales (PLS), la regresión por red elástica y la regresión por componentes principales (PCR) como formas de tratar la agrupación, y la regresión LASSO (un caso aislado de EN) para la selección de covariables.
0 votos
¿Cómo se calcula el beneficio? ¿Es simplemente
profit = selling - buying
?2 votos
Sin hacer referencia a los aspectos específicos de su pregunta, en general es una mala idea omitir predictores conocidos debido al efecto de sesgo de variable omitida ver también La paradoja de Simpson (aunque propiamente se utiliza un nombre diferente para el caso continuo y-continuo x). Sin embargo, si existe una relación funcional obvia y directa con algunos predictores, es posible que desee considerar la posibilidad de ajustar la respuesta (ver lo que queda después de eliminar el efecto conocido de esas variables).
0 votos
@MarkWhite Sí, pero el coste de compra también ha incluido cualquier otro coste asociado a cada mercancía respectiva (envío, tramitación, impuestos, etc.). Estos costes se han optimizado todo lo que he podido.