6 votos

¿Cómo modelar la relación entre los datos de ventas geocodificados y no geocodificados?

Estoy tratando de modelar los datos de ventas de las tiendas en el Grupo de bloques censales para predecir las ventas de los posibles nuevos restaurantes. Por ejemplo, sé que la tienda 2, que tiene un cartel gigante de neón parpadeante, tiene 2.000 dólares en ventas del grupo de bloques 101, que está a 2,5 millas de la tienda 2 y donde hay 600 hogares y 50 personas que viven en la residencia universitaria. Hasta ahora esto es bastante estándar.

El problema es que la tienda media tiene un 30 % de los datos de ventas que no se pueden geocodificar por alguna razón (nuevas construcciones, residencias universitarias, bases militares, empleados perezosos que anotan la dirección en taquigrafía, etc.), por lo que sólo sé la tienda que realizó las ventas y no dónde residen esos clientes.

Mi enfoque para modelar los datos no codificados comienza con la agregación de los datos demográficos de la zona comercial de la tienda y de todas las ventas no codificadas, de modo que, aunque no sepa dónde están esos clientes, pueda al menos intentar comprender el comportamiento de las ventas basándome en lo que hay alrededor de la tienda. Por ejemplo, si mi tienda está cerca de un campus universitario o tiene muchas construcciones, esperaría que tuviera más ventas sin geocodificar, en igualdad de condiciones.

Esto funciona razonablemente bien, pero los modelos de ventas geocodificadas y no geocodificadas no están vinculados de ninguna manera, lo cual es problemático. Esencialmente, mis ventas geocodificadas se miden con un error no esférico que está correlacionado con mis variables explicativas. También se da el caso de que las ventas no geocodificadas generalmente aumentan con las ventas geocodificadas. Intenté remediar lo primero incluyendo la fracción de ventas totales no geocodificadas en el modelo de ventas geocodificadas, y el total de ventas geocodificadas en el modelo no geocodificado, pero no sé cómo definir esas variables para los sitios potenciales cuyas ventas me interesa pronosticar. Supongo que puedo fijar las ventas no geocodificadas en un 30%, luego predecir las ventas geocodificadas y utilizarlas para pronosticar las ventas no geocodificadas, pero ¿hay una forma mejor de vincular los dos modelos para una mejor estimación y previsión?

8voto

dotnetengineer Puntos 584

La controversia se debe al hecho de que la afirmación "las leyes de la física deben ser generalmente covariantes" es muy llamativa y significativa, incluye el principio de equivalencia, relacionando el movimiento acelerado y un campo gravitatorio local. Pero cuando se formula como "Las leyes de la física deben ser invariantes bajo los cambios de coordenadas" se vuelve trivialmente fácil de cumplir--- cualquier ley de la física puede ser descrita en cualquier coordenada, ¡sólo cambiando las coordenadas! Por ejemplo, si tenemos la ecuación de Laplace, podemos cambiar las coordenadas y reexpresar la ecuación de Laplace en coordenadas elípticas o esféricas.

Así que las personas que creen que la física es como las matemáticas querrían dar un axioma matemático que se corresponda con el principio físico de la "Covarianza General", e identifican este axioma como "Las leyes de la física deben ser expresables en coordenadas arbitrarias", y como esta afirmación es trivial y libre de contenido, concluyen que la Covarianza General es libre de contenido, de ahí la polémica.

Esta controversia no es tan interesante. El enunciado de la Covarianza General parte del principio de equivalencia, que establece que un marco localmente acelerado es equivalente a un campo gravitatorio. Como la cantidad dinámica que determina la aceleración local es la métrica y la conexión asociada, se concluye que la conexión y la métrica son el campo y el potencial gravitatorios. Entonces se formulan las leyes del movimiento para el campo y el potencial. Las ecuaciones de movimiento tienen que ser sensatas -sin soluciones inestables de fuga, energía positiva de pequeñas perturbaciones. Entonces el principio del menor número de derivadas (escalando los términos más relevantes) escoge la RG más quizás algunos términos topológicos.

El principio de la Covarianza General es sólo que no hay una métrica preferida a-priori, que la métrica está determinada por las ecuaciones locales de movimiento, como el potencial eléctrico. No tienes ninguna "fuerza restauradora" que tire de la métrica a +1,-1,-1,-1, o cualquier otro valor. De modo que la siguiente acción ridícula viola la covarianza general:

$$ S = \int ( R + (g_{\mu\nu} - \eta_{\mu\nu})(g^{\mu\nu} - \eta^{\mu\nu}) ) \sqrt{g} $$

No hay mucho más en la Covarianza General que la desautorización de tensores explícitos, como el anterior.

El principio es simplemente que la teoría debe ser geométrica, sin geometría de fondo preferida. Esto es lo que enfatizan hoy en día las personas a las que les gusta la gravedad cuántica de bucles.

1voto

christy Puntos 51

No tengo una respuesta sucinta, pero sí consejos y comentarios demasiado largos para un solo comentario...

El hecho de que el 70% de tus ventas provengan de transacciones con un nombre y un código postal (lo que hace posible que coincida con una dirección en una zona comercial determinada) parece ser realmente bueno. Yo recomendaría no atascarse demasiado con las transacciones no rastreables y simplemente escalar la previsión según sea necesario. Pero, para ello, debería aclarar si su enfoque actual es capaz de modelar las ventas de las tiendas existentes. En concreto, ¿cuál es la distribución de los errores de previsión para las tiendas existentes?

En cuanto al 30% de las ventas que no se pueden geocodificar, sospecho que es más o menos el porcentaje de transacciones en efectivo en cada tienda, y éstas, por supuesto, no se pueden rastrear. Pero también sospecho que las transacciones en efectivo suelen ser de menor valor, y que la proporción de transacciones en efectivo frente a las realizadas con tarjeta de crédito se correlaciona con la renta media de la zona comercial. Por lo tanto, una previsión útil puede ser predecir la proporción de transacciones en efectivo (y, por lo tanto, de menor valor) con respecto a las transacciones con tarjeta de crédito, basándose en la zona comercial y en los bienes inmuebles de la nueva tienda. Eso le daría el "tamaño del efecto" de las transacciones no codificadas que necesita para escalar las ventas totales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X