7 votos

Qué hacer con casi-continua variable en la regresión?

Me han enseñado que el agrupamiento de una variable continua en categorías casi nunca es una buena idea, porque se pierde la información en el proceso. Pero ahora me estoy enfrentando una situación en la que tengo una edad variable que es "casi continuo", es decir, que aproximadamente el 90% de los valores representan la edad en años, y el restante 10% se registran como un ordenado factor de azar niveles, por ejemplo, >18 años, 18 a 34 años, >50 ...

Quiero utilizar la edad como un factor de predicción de una continua variable de resultado, pero no estoy seguro de cómo proceder. Debo hacer esto en un ordenado factor, aunque esto no significa tirar la información en el 90% de los casos? Si no, ¿qué hago con el 10% de los casos en los que la edad es ya una orden de factor? Cualquier sugerencia será bienvenida.

4voto

fredley Puntos 274

Yo diría que interactúan continua de edad con un maniquí "continuo de edad está disponible", y por categorías de edad con un maniquí "continua la edad no está disponible". De esa manera usted estará utilizando como gran parte de la información que tienen como sea posible. Por supuesto, si el efecto de la edad es algo que te gustaría ser capaz de resumir con un solo punto de estimación, usted tendrá que pensar un poco más (a pesar de que el coeficiente de continua de edad debe ser una buena aproximación para eso).

1voto

patfla Puntos 1

Usted puede incorporar esto en el marco Bayesiano mediante la especificación de una distribución previa para la variable edad. Y para la parte posterior, usted tiene:

$$p(\theta|DI)\propto p(\theta|I)p(D|\theta I)$$

Ahora simplemente tome $D\equiv (18+)$ por ejemplo. Esto no es más difícil "en principio", en comparación a cuando usted realmente sabe las edades. La diferencia es que su función de probabilidad debe ser una función de distribución acumulativa en lugar de una densidad. Como un ejemplo, supongamos que la edad es el único regresor tiene (denotado $x_i$), y que son el ajuste de un modelo OLS. Este es para mi beneficio - pero la generalización es sólo detalles, más que conceptual. Si usted ha observado las edades exactamente la función de probabilidad es:

$$p(y_1\dots y_N|x_1\dots x_N\alpha\beta\sigma I)=(2\pi\sigma^2)^{-\frac{N}{2}}\exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(y_i-\alpha-\beta x_i)^2\right)$$

Pero supongamos ahora que el $(N+1)$th observación, sólo se observa que el $L<x_{N+1}<U$. Permite llamar a este pedazo de información $Z$. Ahora podemos utilizar la brillante truco de introducir una molestia parámetro y, a continuación, la integración de lo nuevo (a través de la suma de la regla). La molestia parámetro se introduce es $x_{N+1}$ (la real, no la edad), y tenemos:

$$p(y_1\dots y_N y_{N+1}|x_1\dots x_N Z\alpha\beta\sigma I)=\int_{L}^{U} p(y_1\dots y_N y_{N+1}x_{N+1}|x_1\dots x_N Z\alpha\beta\sigma I)dx_{N+1}$$

Ahora podemos dividir el integrando mediante el producto de la regla de $P(AB|C)=P(A|C)P(B|AC)$ y obtenemos:

$$p(x_{N+1}|x_1\dots x_N Z\alpha\beta\sigma I)p(y_1\dots y_N y_{N+1}|x_1\dots x_N x_{N+1}Z\alpha\beta\sigma I)$$

Tenga en cuenta que en la segunda densidad, la información $Z\equiv L<x_{N+1}<U$ es redundante porque ya estamos acondicionado en el verdadero valor de $x_{N+1}$. Así nos lo puede quitar. Tenga en cuenta que este segundo término se podría llamar la "limpia" de datos. El primer término es básicamente una declaración de cuál es la probabilidad de no observados edad se da $L<x_{N+1}<U$, además de la posición de la "verdadera línea" $(\alpha,\beta)$, el nivel de ruido $\sigma$, y los valores de todas las demás edades $(x_1\dots x_N)$. Y por lo que tiene un sistema integrado de probabilidad (a veces llamados cuasi-verosimilitud):

$$p(Y|XZ\alpha\beta\sigma I)=(2\pi\sigma^2)^{-\frac{N+1}{2}}\exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(y_i-\alpha-\beta x_i)^2\right)$$ $$\times\int_{L}^{U}p(x_{N+1}|X\alpha\beta\sigma I)\exp\left(-\frac{(y_{N+1}-\alpha-\beta x_{N+1})^2}{2\sigma^2}\right)dx_{N+1}$$

Ahora, para cada "desordenado" de datos, usted será similar integral. Usted puede tomar la integral anterior como multi-dimensional (con la correspondiente matriz de suma de cuadrados en la exponencial).

He escuchado algo de este tipo, llamado la "Falta de información de Principio". Básicamente, crear un "buen" conjunto de datos a partir de su "desordenado" (es decir, el conjunto de datos que usted desea que usted tenía), y luego calcular el promedio de los "niza" inferencias. Le da más peso a ciertos agradable conjuntos de datos de acuerdo a lo que su "desordenado" de información.

0voto

Eero Puntos 1612

Usted puede tratar de edad como un intervalo variable censurada. Algunos de supervivencia de las rutinas de hacer esto en un recto camino para la variable de respuesta, si la edad es un predictor entonces no sé si hay ya hechas, las herramientas disponibles. Pero usted todavía puede hacerlo con la máxima probabilidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X