Una menor variación conduce a una menor potencia
Discretizar los predictores es una mala idea como explica Frank Harrell aquí . En cuanto a su pregunta titular, examinemos un escenario sencillo.
Digamos que tengo un predictor que tiene una distribución normal estándar. Me gustaría probar el efecto de este predictor en un resultado que también se distribuye normalmente condicionado por el predictor, con varianza unitaria. Si discretizara el predictor, tendría una prueba T en mis manos. Dejar el predictor como está sería simplemente una regresión. Además, digamos que recojo 25 observaciones y estoy interesado en un efecto más pequeño de 1 unidad de lo que estoy midiendo.
La potencia de cada prueba viene dada por
$$\gamma=1-\Phi\left[z_{1-\alpha / 2}-\left|\beta_{j}^{a}\right| \sigma_{x_{j}} \sqrt{n\left(1-\rho_{j}^{2}\right)} / \sigma_{y \mid \mathbf{x}}\right]$$
Donde $\Phi$ es la FCD normal, $\alpha$ es el FPR, $ \beta_j^\alpha$ es el menor tamaño del efecto significativo, $\sigma_{x_j}$ es la varianza del predictor, $n$ es el tamaño de la muestra, $1/(1-\rho^2)$ es el factor de inflación de la varianza, y $\sigma_{y \vert x}$ es la desviación estándar residual.
Vamos a introducir algunos de los términos que he mencionado aquí por economía de ideas
$$\gamma=1-\Phi\left[1.96- 5 \sigma_{x_{j}}\right]$$
Como he escogido buenos números, la potencia depende sólo de la varianza del predictor. No es difícil ver que se trata de una función monótona en $\sigma$ por lo que una mayor variabilidad en el predictor supone una mayor potencia. Cuando se dicotomiza, el mayor $\sigma$ puede ser es 0,5. En este ejemplo, dicotomizar reduciría mi potencia del 99% a casi el 70%.
Este hecho es cierto en muchos MLG, ya que las ecuaciones de potencia son más o menos similares. Una menor varianza en el predictor conduce a una menor potencia para la prueba asociada. Esto es bastante intuitivo. Si está interesado en probar la pendiente de un predictor continuo, querrá que ese predictor esté lo más repartido posible. No se puede estimar la pendiente si se tiene una pequeña franja en la que ver la variación de $y$ debido a $x$ .
Otras dificultades
Dicotomizar también es una mala idea porque conduce a la confusión residual y a la discontinuidad de los efectos. Por ejemplo, estoy seguro de que una mujer con un mes de embarazo es muy diferente a una mujer con 9 meses de embarazo, pero utilizando una variable como is_pregnant
los trata como si fueran lo mismo. Así que, aunque se pueda recoger más datos discretizando, la calidad de la estimación se resiente.