1 votos

¿En qué momento categorizar una variable continua (y el método)?

Mi conjunto de datos contiene muchas variables que me parecen prácticamente categóricas en una escala continua en diferentes grados.

Muchos tienen un gran trozo de ceros o un valor específico seguido de uno o más trozos aparentemente separados. En algunos casos, esto es obvio cuando hay literalmente 2 específicos individuales efectivamente encendido/apagado. Otros son mucho más candidatos potenciales donde hay casi 2 o más distribuciones separadas.

Estoy tratando de modelar un dependiente continuo normalmente distribuido en un número de variables potenciales (recogidas en una escala continua). Es probable que la mayoría de ellas no contribuyan al modelo. Utilizaré varios métodos de modelización para explorar cuál es el mejor (es decir, probaré métodos de árbol en los que la apariencia binomial aparente no es un problema). No doy por sentado que se pueda producir un buen modelo.

En estas situaciones, ¿hay alguna regla o técnica rígida para clasificar o no? Además, una vez realizadas las transformaciones, ¿qué consideraciones/medidas debo tener en cuenta? Yo diría que la mayor parte del conjunto de datos es así.

3voto

jasonmray Puntos 1303

Lo relevante es saber qué representa cada predictor y las implicaciones de su relación con la respuesta, teniendo en cuenta los usos a los que se destinará el modelo; la distribución de los predictores puede dar pistas e imponer limitaciones, pero no determina por sí misma la forma funcional del modelo. Discretizar las variables continuas no suele ser una buena idea (véase ¿Cuál es la ventaja de dividir una variable predictiva continua? ).

En el caso de un predictor que sólo toma dos valores, la forma en que lo codifique no afectará al ajuste del modelo (suponiendo que no aplique ninguna contracción basada en la magnitud de los coeficientes). No obstante, merece la pena pensar en cómo utilizará el modelo para predecir futuras observaciones: si el 20% y el 40% representan el tipo en los tramos impositivos inferiores y superiores, ¿qué hará cuando los tipos suban al 22% y al 45% el año que viene?

En el caso de un predictor que sólo toma $k$ tiene la opción de modelarlo como nominal-con $k-1$ o como continuo, con hasta $k-1$ coeficientes en, por ejemplo, un polinomio. Tienes que pensar qué harás si un $(k+1)$ El valor de este último surge en una muestra futura.

En el caso de un predictor con una distribución bimodal continua, no debería tomarlo como una indicación de que debe hacerse discreto. Si las personas de la muestra tienden a ser bajas o altas por alguna razón, eso no implica que la presión arterial tenga una discontinuidad en su relación con la altura.

En el caso de un predictor generalmente continuo pero con valores específicos sobrerrepresentados, hay que pensar cómo surgen y si eso sugiere algo especial en relación con la respuesta. Si se está modelando la propensión a comprar aislamiento para el desván, el valor de la factura mensual de gas de alguien podría ser un predictor útil; pero una factura de gas de cero significa más bien que no tienen un suministro de gas de red que que no calientan su casa. En situaciones como ésta, puede ser útil incluir una variable ficticia para señalar el valor sobrerrepresentado, además del predictor continuo. (Véase aquí para algunos detalles).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X