Tienes razón en ambas cosas. Ver la página de Frank Harrell aquí para una larga lista de problemas con el binning de variables continuas. Si se utilizan pocos intervalos, se desecha mucha información de los predictores; si se utilizan muchos, se tiende a introducir meneos en lo que debería ser una relación suave, si no lineal, y se utilizan muchos grados de libertad. En general, es mejor utilizar polinomios ( $x + x^2 + \ldots$ ) o splines (polinomios a trozos que se unen suavemente) para los predictores. En realidad, el binning sólo es una buena idea cuando se espera una discontinuidad en la respuesta en los puntos de corte -por ejemplo, la temperatura a la que hierve algo o la edad legal para conducir-, y cuando la respuesta es plana entre ellos
El valor bueno, es una forma rápida y fácil de tener en cuenta la curvatura sin tener que pensar en ello, y el modelo puede ser lo suficientemente bueno para lo que lo estás utilizando. Suele funcionar bien cuando se dispone de muchos datos en comparación con el número de predictores, cada predictor se divide en muchas categorías; en este caso, dentro de cada banda de predictor, el rango de respuesta es pequeño y la respuesta media se determina con precisión.
[Editar en respuesta a los comentarios:
A veces se utilizan límites estándar dentro de un campo para una variable continua: por ejemplo, en medicina, las mediciones de la tensión arterial pueden clasificarse como baja, media o alta. Puede haber muchas buenas razones para utilizar estos límites al presentar o aplicar un modelo. En concreto, las reglas de decisión suelen basarse en menos información de la que se incluye en un modelo y su aplicación debe ser sencilla. Pero esto no significa que estos límites sean apropiados para dividir los predictores cuando se ajusta el modelo.
Supongamos que alguna respuesta varía continuamente con la presión sanguínea. Si define un grupo de presión arterial alta como predictor en su estudio, el efecto que está estimando es la respuesta media sobre las presiones sanguíneas particulares de los individuos de ese grupo. Es pas una estimación de la respuesta media de las personas con hipertensión en la población general, o de las personas del grupo de hipertensión en otro estudio, a menos que tome medidas específicas para que así sea. Si se conoce la distribución de la presión arterial en la población general, como imagino, será mejor calcular la respuesta media de las personas con presión arterial alta en la población general basándose en las predicciones del modelo con la presión arterial como variable continua. La segmentación bruta hace que su modelo sólo sea aproximadamente generalizable.
En general, si tiene preguntas sobre el comportamiento de la respuesta entre los puntos de corte, ajuste primero el mejor modelo que pueda y luego utilícelo para responderlas].
[En cuanto a la presentación, creo que se trata de una pista falsa:
(1) La facilidad de presentación no justifica las malas decisiones de modelado. (Y en los casos en que el binning es una buena decisión de modelización, no necesita justificación adicional). Esto es evidente. Nadie recomienda nunca eliminar una interacción importante de un modelo porque sea difícil de presentar.
(2) Independientemente del tipo de modelo que utilice, puede presentar sus resultados en términos de categorías si cree que puede ayudar a interpretarlos. Aunque ...
(3) Hay que tener cuidado para asegurarse de que no ayuda a mis -interpretación, por las razones expuestas anteriormente.
(4) De hecho, no es difícil presentar respuestas no lineales. Es evidente que se trata de una opinión personal y que el público difiere, pero nunca he visto que un gráfico de valores de respuesta ajustados frente a valores predictores desconcierte a alguien sólo porque sea curvo. Las interacciones, los logits, los efectos aleatorios, la multicolinealidad... son mucho más difíciles de explicar].
[Un punto adicional planteado por @Roland es la exactitud de la medición de los predictores; está sugiriendo, creo, que la categorización puede ser apropiada cuando no son especialmente precisos. El sentido común podría sugerir que no se mejoran las cosas replanteándolas de forma aún menos precisa, y el sentido común tendría razón: MacCallum et al (2002), "On the Practice of Dichotomization of Quantitative Variables", Métodos psicológicos , 7 , 1, pp17-19.]
15 votos
1) No. Tiene razón en que el binning pierde información. Debe evitarse en la medida de lo posible. 2) Por lo general, se prefiere la función de curva que sea coherente con la teoría en la que se basan los datos.
11 votos
No sé si beneficios, pero hay una serie de peligros ampliamente reconocidos
3 votos
Un argumento reacio a ello, en ocasiones: Puede simplificar la interpretación clínica y la presentación de los resultados; por ejemplo, la presión arterial es a menudo un predictor cuadrático y un clínico puede apoyar el uso de puntos de corte para PA baja, normal y alta, y puede estar interesado en comparar estos amplios grupos.
4 votos
@user20650: No estoy muy seguro de haberte entendido, pero ¿no sería mejor ajustar el mejor modelo que puedas, y luego usar las predicciones de ese modelo para decir lo que quieras decir sobre grupos amplios? El "grupo de presión arterial alta" de mi estudio no tendrá necesariamente la misma distribución de presiones que la población general, por lo que sus resultados no serán generalizables.
0 votos
@scortchi: Estoy de acuerdo en que a menudo no es útil utilizar los datos reales para decidir los puntos de corte - pero en lo que respecta a mi ejemplo, hay presiones generalmente acordadas (~ +/-) que indican clínicamente hiper e hipotensión y rango normal. La medida en que el valor se sitúa por encima o por debajo de estos umbrales puede no ser tan importante para el clínico como el hecho de que se hayan alcanzado. También estoy de acuerdo en que es preferible no categorizar, pero si el objetivo es simplemente presentar asociaciones con un resultado, a veces (en mi opinión) es difícil presentar asociaciones no lineales de una manera clara y fácilmente interpretable ....
1 votos
@user20650: Como cualquier presentación, depende de la audiencia. Desde simples gráficos de predictores frente a respuestas ajustadas para clientes que sólo quieren una visión general del modelo/comprobación del sentido común, hasta detalles de restricciones, número y colocación de nudos para los más sofisticados estadísticamente. Si hay valores de referencia importantes para los predictores o las respuestas, como suele ocurrir, hablo del comportamiento del modelo con respecto a ellos, los muestro en los gráficos y a veces hago cálculos basados en su distribución en la población y en los ajustes del modelo.
2 votos
@user20650: De todas formas, explicar cosas necesariamente complicadas lo mejor que se pueda va con el trabajo. Yo no esperaría que un médico me operara en vez de darme un medicamento sólo porque le resulta más fácil explicarme cómo cortarme una parte del cuerpo que explicarme cómo funciona el fármaco.
8 votos
La interpretación clínica simplificada es un espejismo. Las estimaciones de efectos a partir de variables continuas categorizadas no tienen una interpretación conocida.
0 votos
Véase también stats.stackexchange.com/questions/104402/