Mi conjunto de datos contiene muchas variables que me parecen prácticamente categóricas en una escala continua en diferentes grados.
Muchos tienen un gran trozo de ceros o un valor específico seguido de uno o más trozos aparentemente separados. En algunos casos, esto es obvio cuando hay literalmente 2 específicos individuales efectivamente encendido/apagado. Otros son mucho más candidatos potenciales donde hay casi 2 o más distribuciones separadas.
Estoy tratando de modelar un dependiente continuo normalmente distribuido en un número de variables potenciales (recogidas en una escala continua). Es probable que la mayoría de ellas no contribuyan al modelo. Utilizaré varios métodos de modelización para explorar cuál es el mejor (es decir, probaré métodos de árbol en los que la apariencia binomial aparente no es un problema). No doy por sentado que se pueda producir un buen modelo.
En estas situaciones, ¿hay alguna regla o técnica rígida para clasificar o no? Además, una vez realizadas las transformaciones, ¿qué consideraciones/medidas debo tener en cuenta? Yo diría que la mayor parte del conjunto de datos es así.