Estoy tratando de modelar los datos de ventas de las tiendas en el Grupo de bloques censales para predecir las ventas de los posibles nuevos restaurantes. Por ejemplo, sé que la tienda 2, que tiene un cartel gigante de neón parpadeante, tiene 2.000 dólares en ventas del grupo de bloques 101, que está a 2,5 millas de la tienda 2 y donde hay 600 hogares y 50 personas que viven en la residencia universitaria. Hasta ahora esto es bastante estándar.
El problema es que la tienda media tiene un 30 % de los datos de ventas que no se pueden geocodificar por alguna razón (nuevas construcciones, residencias universitarias, bases militares, empleados perezosos que anotan la dirección en taquigrafía, etc.), por lo que sólo sé la tienda que realizó las ventas y no dónde residen esos clientes.
Mi enfoque para modelar los datos no codificados comienza con la agregación de los datos demográficos de la zona comercial de la tienda y de todas las ventas no codificadas, de modo que, aunque no sepa dónde están esos clientes, pueda al menos intentar comprender el comportamiento de las ventas basándome en lo que hay alrededor de la tienda. Por ejemplo, si mi tienda está cerca de un campus universitario o tiene muchas construcciones, esperaría que tuviera más ventas sin geocodificar, en igualdad de condiciones.
Esto funciona razonablemente bien, pero los modelos de ventas geocodificadas y no geocodificadas no están vinculados de ninguna manera, lo cual es problemático. Esencialmente, mis ventas geocodificadas se miden con un error no esférico que está correlacionado con mis variables explicativas. También se da el caso de que las ventas no geocodificadas generalmente aumentan con las ventas geocodificadas. Intenté remediar lo primero incluyendo la fracción de ventas totales no geocodificadas en el modelo de ventas geocodificadas, y el total de ventas geocodificadas en el modelo no geocodificado, pero no sé cómo definir esas variables para los sitios potenciales cuyas ventas me interesa pronosticar. Supongo que puedo fijar las ventas no geocodificadas en un 30%, luego predecir las ventas geocodificadas y utilizarlas para pronosticar las ventas no geocodificadas, pero ¿hay una forma mejor de vincular los dos modelos para una mejor estimación y previsión?