2 votos

En la práctica, ¿cómo discretizar el regresor continuo con un impacto mínimo en el coeficiente (o una pérdida mínima de información)?

Supongamos que tengo unos datos continuos con el siguiente aspecto (se trata de un miniejemplo, no de mis datos reales):

X = [1.61247174986927   2.65691016769718    0.591138214153149    
0.726195765274149   2.88156040072165    1.62455101313526     
6.43225443007122    0.590263950142884   3.05416345831489     
2.82441594177780    1.27093403949212    0.414863903556840    
1.34369968006468    0.367816560010304   1.19023283647451     
4.39095587146157    2.42508655542887    0.295173291557651    
0.842110993459900   4.94140793763529],

Supongamos que tengo que ejecutar la regresión $Y_i=a+bX_i+cZ_i+e_i$ . Supongamos que necesito discretizar $X_i$ en sólo 4 valores, ¿cómo debo hacer la discretización para minimizar el impacto en la estimación de $\widehat{b}$ (por ejemplo, si $\widehat{b}$ es significativo en el marco de la $X_i$ el nuevo coeficiente frente al discretizado $X_i$ mejor que sea significativa), o vagamente, minimizar la pérdida de información.

2voto

icelava Puntos 548

No tire sus datos continuos. Introdúzcalos en su algoritmo tal y como están; potencialmente transfórmelos utilizando (por ejemplo) splines cúbicos restringidos (véase, por ejemplo, Regression Modeling Strategies de Frank Harrell) para capturar cualquier no linealidad.

En particular, no vaya a la caza de la significación "ajustando" los contenedores. Su $p$ los valores estarán sesgados a la baja. Esto no difiere de otras formas de ajustar los modelos para lograr una baja $p$ valores.

Usted escribe :

Necesito que mi resultado sea comparable con los resultados anteriores, lo que resume $X_i$ en un índice de valores discretos.

Honestamente, si la gente en el pasado se disparó en el pie, entonces no trataría de comparar mi propio disparo en el pie con el estado del arte, sino que trataría de hacerlo mejor.

Vale, entiendo que esto no es realista. Mi recomendación: no busques la "mejor" manera de hacer algo malo. En su lugar, utilice el binning más sencillo posible para su comparación (por ejemplo, bins de igual anchura o contenido), y dedique más recursos intelectuales y palabras a explicar por qué el binning es una mala idea, y cómo modelar mejor su proceso y sus datos. Ayude a que el sector deje de lado las malas prácticas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X