Entendí agenis decir que, en la creación de la std dev, él quería que la base de bucketed los valores de X, no Y valores. Si se estaban preguntando acerca de la creación de depósitos de los valores de Y, a continuación, Mateo Drury sería correcto que esta sería "la fuga" Y en los predictores. Además, agenis no ha dicho si existe o no una dimensión temporal a la información. Todos estamos suponiendo que no hay. Si la hay, entonces teniendo rezagos de Y sería adecuado y un control adecuado para el problema de la "fuga" en los predictores. Además, cualquier relación temporal abriría nuevas clases de modelado de opciones de difusión no lineal de los modelos a los muchos sabores de "Box-Jenkins" tipo de métodos.
Todavía hay un montón de espacio para jugar aquí.
Simplemente o los valores de X, por ejemplo, la creación de 10 mutuamente excluyentes agrupaciones en X, viene a ser una especie de pobre enfoque de densidad de kernel de análisis. Basado en la gráfica y da el convexa de la pendiente de la curva, se puede ver que estas nuevas agrupaciones rápido declive en su poder predictivo en todo el rango de X wrt Y. Dado que, es muy posible que el ajuste de 2 o 3 splines proporcionaría un mejor ajuste que los efectos principales del modelo propuesto.
Si uno elige cubo de X, una consideración que vale la pena explorar es el uso de la dentro de la cubeta del coeficiente de variación, en lugar de la std dev. El CV es el coeficiente de la std dev a la media (100 veces) y resultaría en una métrica que es invariante y comparable a través de los niveles de X. ¿por Qué importa esto? Tomar dos precios de las acciones como un ejemplo. Stock 1 tiene un precio promedio de 500 y una std dev de 100, mientras que el stock 2 tiene un precio promedio de 50 y un std dev de 20. Que stock es más volátil? No se puede mirar en la ets devs en y de sí mismos para responder a esta pregunta, ya que son dependiente de la escala. El CV para el caldo 1 es 20 (100/500*100=20) y para el caldo 2 es 40. Por lo tanto, y a pesar de una menor std dev, stock 2 tiene más volatilidad inherente de existencias 1. Para mí, las ventajas de una métrica de esta manera en una escala dependiente std dev son claras.
Otra posibilidad sería no balde X y conservar su distribución continua de la naturaleza con una transformación. Por ejemplo, podría ser que, de nuevo basado en el gráfico, la relación entre X y y es exponencial. Dependiendo de la magnitud o escala de X, exponenciación puede resultar rápidamente en bytes de desbordamiento (valores tan grandes que no caben en el formato numérico). Dado que el riesgo, la transformación de X en primer lugar con, por ejemplo, un logaritmo natural de la función y, a continuación, tomar el exponente sería una solución. Otras transformaciones de X que conservan su naturaleza continua y comprimir su PDF (función de densidad de probabilidad, es decir, su cola) son también posibles. Hay literalmente docenas, si no más, de las transformaciones disponibles en la literatura. Hay un libro dedicado a la catalogación de las transformaciones matemáticas, aunque no recuerdo el título.
Todas las sugerencias hechas hasta ahora implican funciones lineales y modelos basados en X. Modelos no lineales en los parámetros también son posibles, pero podría ser peludo, tanto en términos de la especificación y de la interpretación.
Al final del día, la pregunta se convierte en uno de la importancia relativa de la predicción vs sustantivo de la interpretación de los resultados del modelo. Si la atención se centra simplemente en la predicción, entonces, una "caja negra", modelo que se ajusta a los datos, pero es opaco en su significado está permitido. Si la visión estratégica de la relación entre X y y es la meta, entonces las cosas se mantengan en el nivel, no sólo por parte del analista, pero el analista de la audiencia, es imperativo. En este último caso, altamente soluciones técnicas que se deben evitar, ya que es casi seguro que el caso de que la audiencia estará compuesta de la técnica semi-alfabetizados, en el mejor, con un fuerte sesgo a la técnica de analfabetismo. Cada analista de la peor pesadilla de estar explicando algo a un innumerate audiencia donde se es la única persona en la sala que entiende de qué están hablando.
Por supuesto, dividiendo los datos en una prueba independiente y de exclusión de las muestras (o k-pliegues) para evaluar el ajuste del modelo de "fuera de muestra" y de control para el sobreajuste es obligatoria.