115 votos

¿Cuál es la ventaja de dividir una variable predictiva continua?

Me pregunto qué valor tiene tomar una variable predictiva continua y dividirla (por ejemplo, en quintiles) antes de utilizarla en un modelo.

Me parece que al binar la variable perdemos información.

  • ¿Es sólo para poder modelar efectos no lineales?
  • Si mantuviéramos la variable continua y no fuera realmente una relación lineal recta, ¿tendríamos que idear algún tipo de curva que se ajustara mejor a los datos?

15 votos

1) No. Tiene razón en que el binning pierde información. Debe evitarse en la medida de lo posible. 2) Por lo general, se prefiere la función de curva que sea coherente con la teoría en la que se basan los datos.

11 votos

No sé si beneficios, pero hay una serie de peligros ampliamente reconocidos

3 votos

Un argumento reacio a ello, en ocasiones: Puede simplificar la interpretación clínica y la presentación de los resultados; por ejemplo, la presión arterial es a menudo un predictor cuadrático y un clínico puede apoyar el uso de puntos de corte para PA baja, normal y alta, y puede estar interesado en comparar estos amplios grupos.

95voto

jasonmray Puntos 1303

Tienes razón en ambas cosas. Ver la página de Frank Harrell aquí para una larga lista de problemas con el binning de variables continuas. Si se utilizan pocos intervalos, se desecha mucha información de los predictores; si se utilizan muchos, se tiende a introducir meneos en lo que debería ser una relación suave, si no lineal, y se utilizan muchos grados de libertad. En general, es mejor utilizar polinomios ( $x + x^2 + \ldots$ ) o splines (polinomios a trozos que se unen suavemente) para los predictores. En realidad, el binning sólo es una buena idea cuando se espera una discontinuidad en la respuesta en los puntos de corte -por ejemplo, la temperatura a la que hierve algo o la edad legal para conducir-, y cuando la respuesta es plana entre ellos

El valor bueno, es una forma rápida y fácil de tener en cuenta la curvatura sin tener que pensar en ello, y el modelo puede ser lo suficientemente bueno para lo que lo estás utilizando. Suele funcionar bien cuando se dispone de muchos datos en comparación con el número de predictores, cada predictor se divide en muchas categorías; en este caso, dentro de cada banda de predictor, el rango de respuesta es pequeño y la respuesta media se determina con precisión.

[Editar en respuesta a los comentarios:

A veces se utilizan límites estándar dentro de un campo para una variable continua: por ejemplo, en medicina, las mediciones de la tensión arterial pueden clasificarse como baja, media o alta. Puede haber muchas buenas razones para utilizar estos límites al presentar o aplicar un modelo. En concreto, las reglas de decisión suelen basarse en menos información de la que se incluye en un modelo y su aplicación debe ser sencilla. Pero esto no significa que estos límites sean apropiados para dividir los predictores cuando se ajusta el modelo.

Supongamos que alguna respuesta varía continuamente con la presión sanguínea. Si define un grupo de presión arterial alta como predictor en su estudio, el efecto que está estimando es la respuesta media sobre las presiones sanguíneas particulares de los individuos de ese grupo. Es pas una estimación de la respuesta media de las personas con hipertensión en la población general, o de las personas del grupo de hipertensión en otro estudio, a menos que tome medidas específicas para que así sea. Si se conoce la distribución de la presión arterial en la población general, como imagino, será mejor calcular la respuesta media de las personas con presión arterial alta en la población general basándose en las predicciones del modelo con la presión arterial como variable continua. La segmentación bruta hace que su modelo sólo sea aproximadamente generalizable.

En general, si tiene preguntas sobre el comportamiento de la respuesta entre los puntos de corte, ajuste primero el mejor modelo que pueda y luego utilícelo para responderlas].

[En cuanto a la presentación, creo que se trata de una pista falsa:

(1) La facilidad de presentación no justifica las malas decisiones de modelado. (Y en los casos en que el binning es una buena decisión de modelización, no necesita justificación adicional). Esto es evidente. Nadie recomienda nunca eliminar una interacción importante de un modelo porque sea difícil de presentar.

(2) Independientemente del tipo de modelo que utilice, puede presentar sus resultados en términos de categorías si cree que puede ayudar a interpretarlos. Aunque ...

(3) Hay que tener cuidado para asegurarse de que no ayuda a mis -interpretación, por las razones expuestas anteriormente.

(4) De hecho, no es difícil presentar respuestas no lineales. Es evidente que se trata de una opinión personal y que el público difiere, pero nunca he visto que un gráfico de valores de respuesta ajustados frente a valores predictores desconcierte a alguien sólo porque sea curvo. Las interacciones, los logits, los efectos aleatorios, la multicolinealidad... son mucho más difíciles de explicar].

[Un punto adicional planteado por @Roland es la exactitud de la medición de los predictores; está sugiriendo, creo, que la categorización puede ser apropiada cuando no son especialmente precisos. El sentido común podría sugerir que no se mejoran las cosas replanteándolas de forma aún menos precisa, y el sentido común tendría razón: MacCallum et al (2002), "On the Practice of Dichotomization of Quantitative Variables", Métodos psicológicos , 7 , 1, pp17-19.]

7 votos

Excelentes comentarios sobre un tema omnipresente. Es importante propagar aquí un pensamiento totalmente cuantitativo. Ya se hace demasiado hincapié en cruzar umbrales, por ejemplo, por encima de cierto nivel de desastre, por debajo de cierto nivel de comodidad.

21 votos

Desafío a cualquiera a que muestre una validación de los puntos de corte utilizados por los médicos.

1 votos

Cabe señalar que este enfoque de binning tiene algunas ventajas en otros ámbitos: es especialmente popular cuando se combina con grandes redes neuronales para predecir distribuciones multimodales, como la orientación de los vehículos. Véase arxiv.org/abs/1612.00496 por ejemplo.

16voto

PhilHoy Puntos 548

Una parte de esta respuesta que he aprendido desde que pregunté es que no binning y binning busca responder a dos preguntas ligeramente diferentes - ¿Cuál es el cambio incremental en los datos? y ¿Cuál es la diferencia entre lo más bajo y lo más alto? .

No binning dice "esta es una cuantificación de la tendencia observada en los datos" y binning dice "no tengo suficiente información para decir cuánto cambia esto por cada incremento, pero puedo decir que la parte superior es diferente de la parte inferior".

7voto

Valandar Puntos 21

Como ya se ha mencionado, en general es mejor evitar dicotomizar una variable continua. Sin embargo, en respuesta a su pregunta, hay casos en los que dicotomizar una variable continua ofrece ventajas.

Por ejemplo, si una variable dada contiene valores perdidos para una proporción significativa de la población, pero se sabe que es altamente predictiva y los propios valores perdidos tienen valor predictivo. Por ejemplo, en un modelo de puntuación de créditos, consideremos una variable, digamos el saldo de crédito renovable medio (que, por supuesto, no es técnicamente continuo, pero en este caso refleja una distribución normal lo suficientemente cercana como para tratarlo como tal), que contiene valores perdidos para aproximadamente el 20% del conjunto de solicitantes en un mercado objetivo determinado. En este caso, los valores que faltan para esta variable representan una clase distinta: los que no tienen una línea de crédito renovable abierta; estos clientes mostrarán un comportamiento totalmente diferente en comparación con, por ejemplo, los que tienen líneas de crédito renovable disponibles, pero que regularmente no tienen saldo. Si se descartaran o imputaran estos valores perdidos, podría limitarse la capacidad predictiva del modelo.

Otra ventaja de la dicotomización: puede utilizarse para mitigar los efectos de valores atípicos significativos que sesgan los coeficientes, pero que representan casos realistas que deben tratarse. Si los valores atípicos no difieren mucho en el resultado de otros valores en los percentiles más cercanos, pero sesgan los parámetros lo suficiente como para afectar a la precisión marginal, entonces puede ser beneficioso agruparlos con valores que muestren efectos similares.

A veces, una distribución se presta de forma natural a un conjunto de clases, en cuyo caso la dicotomización le proporcionará un mayor grado de precisión que una función continua.

Además, como ya se ha dicho, dependiendo del público, la facilidad de presentación puede compensar las pérdidas de precisión. Si volvemos a utilizar la calificación crediticia como ejemplo, en la práctica, el alto grado de regulación justifica en ocasiones la discretización. Aunque un mayor grado de precisión podría ayudar al prestamista a reducir pérdidas, los profesionales también deben tener en cuenta que los modelos deben ser fácilmente comprensibles para los reguladores (que pueden solicitar miles de páginas de documentación del modelo) y los consumidores, que si se les deniega el crédito, tienen derecho legalmente a una explicación del motivo.

Todo depende del problema en cuestión y de los datos, pero sin duda hay casos en los que la dicotomización tiene sus ventajas.

0 votos

Dicotomizar es dividir en dos grupos: ¿se refiere a discretizar?

3 votos

En los dos primeros ejemplos, la discretización intenta colarse en la fiesta con un invitado de buena fe. No se deje engañar. (1) Si desea modelar el hecho de no tener una línea de crédito renovable abierta como una clase distinta, simplemente utilice una variable ficticia para indicar esa condición y asigne cualquier constante valor del saldo medio de crédito renovable. (2) Si desea tratar ciertos valores extremos del predictor de forma idéntica, como "grandes" o "pequeños", trúnquelos; no es necesario complicarse con el resto de los valores. El tercer caso es indiscutible; siéntase libre de añadir ejemplos.

6voto

Kaleberg Puntos 1

Como clínico, creo que la respuesta depende de lo que uno quiera hacer. Si quieres hacer el mejor ajuste o realizar el mejor ajuste puedes utilizar variables continuas y al cuadrado.

Si desea describir y comunicar asociaciones complicadas para un público sin orientación estadística, es mejor utilizar variables categorizadas, aceptando que puede dar algunos resultados ligeramente sesgados en el último decimal. Yo prefiero utilizar al menos tres categorías para mostrar asociaciones no lineales. La alternativa es elaborar gráficos y resultados predichos en determinados puntos. Entonces puede que necesite producir una familia de gráficos para cada covariable continua que pueda ser interesante. Si tiene miedo de obtener demasiado sesgo, creo que puede probar ambos modelos y ver si la diferencia es importante o no. Hay que ser práctico y realista.

Creo que podemos darnos cuenta de que en muchas situaciones clínicas nuestros cálculos no se basan en datos exactos y cuando, por ejemplo, prescribo un medicamento a un adulto no lo hago con mg exactos por kilo de todos modos (la parábola con la elección entre cirugía y tratamiento médico no tiene sentido).

1 votos

¿Por qué exactamente la analogía no tiene sentido? ¿Porque categorizar variables continuas nunca produce modelos significativamente peores? ¿O porque utilizar un modelo significativamente peor nunca tiene consecuencias prácticas?

11 votos

Sencillamente, ese no es el caso @Roland. Las estimaciones obtenidas a partir de los puntos de corte sólo son simples porque la gente no entiende lo que las estimaciones estiman. Eso es porque no estiman una cantidad científica, es decir, una cantidad que tenga significado fuera de la muestra o experimento. Por ejemplo, la odds ratio alta:baja o la diferencia de medias aumentarán si se añaden pacientes con valores muy altos o muy bajos al conjunto de datos. Además, el uso de puntos de corte implica que la biología es discontinua, lo que no es el caso.

0 votos

@Scortchi Cambiar el tratamiento médico por el quirúrgico porque es más fácil de explicar (¿lo es realmente?) sería como sustituir la edad por la altura como variable explicativa.

4voto

Erin Drummond Puntos 154

Muchas veces, el binning de variables continuas conlleva la incómoda sensación de causar daños debido a la pérdida de información. Sin embargo, no sólo se puede limitar la pérdida de información, sino que se puede ganar información y obtener más ventajas.

Si utilizas el binning y obtienes variables categorizadas podrás aplicar algoritmos de aprendizaje que no son aplicables a variables continuas. Su conjunto de datos podría ajustarse mejor a uno de estos algoritmos, así que aquí tiene la primera ventaja.

La idea de estimar la pérdida debida al binning se basa en el artículo "PAC learning with irrelevant attributes". Supongamos que nuestro concepto es binario, por lo que podemos dividir las muestras en positivas y negativas. Para cada par de muestras negativas y positivas, la diferencia de concepto podría explicarse por una diferencia en una de las características (o, de lo contrario, no podría explicarse por las características dadas). El conjunto de las diferencias de rasgos es el conjunto de posibles explicaciones a la diferencia de concepto, de ahí los datos a utilizar para determinar el concepto. Si realizamos el binning y seguimos obteniendo el mismo conjunto de explicaciones para los pares, no perdemos ninguna información necesaria (con respecto a los algoritmos de aprendizaje que funcionan mediante este tipo de comparaciones). Si nuestra categorización será muy estricta, probablemente tendremos un conjunto menor de posibles explicaciones, pero podremos medir con precisión cuánto y dónde perdemos. Eso nos permitirá sopesar el número de compartimentos frente al conjunto de explicaciones.

Hasta ahora hemos visto que es posible que no perdamos debido a la categorización, pero si nos planteamos aplicar una medida de este tipo nos gustaría beneficiarnos. Efectivamente, podemos beneficiarnos de la categorización

Muchos algoritmos de aprendizaje a los que se les pedirá que clasifiquen una muestra con valores no vistos en el conjunto de entrenamiento, considerarán el valor como "desconocido". Por lo tanto, obtendremos un contenedor de "desconocido" que incluirá TODOS los valores no vistos durante el entrenamiento (o incluso no vistos lo suficiente). Para estos algoritmos, la diferencia entre pares de valores desconocidos no se utilizará para mejorar la clasificación. Compare sus pares después de binning a los pares con desconocido y ver si su binning es útil y que realmente ganó.

Puede estimar lo comunes que serán los valores desconocidos comprobando la distribución de valores de cada característica. Las características en las que los valores que aparecen pocas veces constituyen una parte considerable de su distribución son buenas candidatas para el binning. Tenga en cuenta que en muchos casos habrá muchas características con valores desconocidos, lo que aumentará la probabilidad de que una muestra contenga valores desconocidos. Los algoritmos que tratan todas o muchas de las características son propensos a errores en tales situaciones.

A. Dhagat y L. Hellerstein, "PAC learning with irrelevant attributes", en 'Proceedings of the IEEE Symp. on Foundation of Computer Science', 1994.http://citeseer.ist.psu.edu/dhagat94pac.html

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X