2 votos

¿Por qué los predictores discretos tienen menor potencia estadística que los continuos?

A la hora de diseñar un análisis, me gustaría decidir entre utilizar variables discretizadas o utilizar la variable continua original (la razón es que, en este caso concreto, la recogida de datos discretizados en sí misma sería más barata y fácil).

Sin embargo, tengo entendido que los predictores discretos carecen de potencia estadística en comparación con el caso continuo. Es decir, utilizando un predictor discreto, tendría que recoger muchos más datos para identificar un efecto en una variable dependiente.

Mi pregunta: ¿Es esto cierto y cuál es la base teórica de la falta de poder estadístico de las variables discretizadas?

He encontrado algunas pruebas en un artículo de 1983 "The Cost of Dichotomization" ( enlace ), pero me preguntaba si hay líneas de argumentación alternativas que puedan aplicarse.

2voto

Alex Puntos 128

Una menor variación conduce a una menor potencia

Discretizar los predictores es una mala idea como explica Frank Harrell aquí . En cuanto a su pregunta titular, examinemos un escenario sencillo.

Digamos que tengo un predictor que tiene una distribución normal estándar. Me gustaría probar el efecto de este predictor en un resultado que también se distribuye normalmente condicionado por el predictor, con varianza unitaria. Si discretizara el predictor, tendría una prueba T en mis manos. Dejar el predictor como está sería simplemente una regresión. Además, digamos que recojo 25 observaciones y estoy interesado en un efecto más pequeño de 1 unidad de lo que estoy midiendo.

La potencia de cada prueba viene dada por

$$\gamma=1-\Phi\left[z_{1-\alpha / 2}-\left|\beta_{j}^{a}\right| \sigma_{x_{j}} \sqrt{n\left(1-\rho_{j}^{2}\right)} / \sigma_{y \mid \mathbf{x}}\right]$$

Donde $\Phi$ es la FCD normal, $\alpha$ es el FPR, $ \beta_j^\alpha$ es el menor tamaño del efecto significativo, $\sigma_{x_j}$ es la varianza del predictor, $n$ es el tamaño de la muestra, $1/(1-\rho^2)$ es el factor de inflación de la varianza, y $\sigma_{y \vert x}$ es la desviación estándar residual.

Vamos a introducir algunos de los términos que he mencionado aquí por economía de ideas

$$\gamma=1-\Phi\left[1.96- 5 \sigma_{x_{j}}\right]$$

Como he escogido buenos números, la potencia depende sólo de la varianza del predictor. No es difícil ver que se trata de una función monótona en $\sigma$ por lo que una mayor variabilidad en el predictor supone una mayor potencia. Cuando se dicotomiza, el mayor $\sigma$ puede ser es 0,5. En este ejemplo, dicotomizar reduciría mi potencia del 99% a casi el 70%.

Este hecho es cierto en muchos MLG, ya que las ecuaciones de potencia son más o menos similares. Una menor varianza en el predictor conduce a una menor potencia para la prueba asociada. Esto es bastante intuitivo. Si está interesado en probar la pendiente de un predictor continuo, querrá que ese predictor esté lo más repartido posible. No se puede estimar la pendiente si se tiene una pequeña franja en la que ver la variación de $y$ debido a $x$ .

Otras dificultades

Dicotomizar también es una mala idea porque conduce a la confusión residual y a la discontinuidad de los efectos. Por ejemplo, estoy seguro de que una mujer con un mes de embarazo es muy diferente a una mujer con 9 meses de embarazo, pero utilizando una variable como is_pregnant los trata como si fueran lo mismo. Así que, aunque se pueda recoger más datos discretizando, la calidad de la estimación se resiente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X