7 votos

Mezcla valores observados y pronosticados dentro de las variables explicativas - ¿Está bien?

Supongamos que de una población de medida 100% de % de $x_i$ y 50% de %de$y_i$.

Ahora, usamos el 50% medido pares $x_i$ $y_i$ a ajustar el modelo 1:

$$Y = \beta_0 + \beta_1X + \epsilon_1$$

Basado en este modelo podemos predecir el otro 50$\hat{y_i}$%. Entonces, tenemos 100% de medirse $x_i$, el 50% de medirse $y_i$ y el 50% del predicho $\hat{y_i}$.

Si uno quiere usar $X$ $Y$ información para modelar $W$ (modelo 2):

$$W = \beta_2 + \beta_3X + \beta_4Y + \epsilon_2$$

Es correcto mezclar medidos y predichos $Y$ en el modelo 2? O deberíamos utilizar el modelo 1 a predecir el 100% de % de $\hat{y_i}$ y el uso de ellos en el modelo 2?

Entiendo que con la medida $y_i$ hay sólo un tipo de error, el cual es el error de la medición, mientras que con $\hat{y_i}$ también existe el error de predicción.

Mi intuición me dice que mantener el 50% de medirse $y_i$ a predecir $W$ de minimizar los errores, pero no sé si la mezcla de $y_i$ $\hat{y_i}$ en el modelo 2 es incorrecta para algunos estadísticos de la razón.

6voto

Jeff Bauer Puntos 236

El OP no ha especificado un procedimiento de estimación, así que voy a considerar la cuestión para el caso de los lineales de regresión de mínimos cuadrados. También voy a ignorar el término constante-digamos variables ya están centrados en sus medios.

Debemos usar el modelo 1 a predecir el 100% de % de $\hat{y_i}$ y el uso de ellos en el modelo 2?

Si hacemos eso, entonces el regresor de la matriz en la regresión para $W$ presentan perfecta colinealidad (desde el regresor se $X$ y el otro $Χ \hat \beta$ a lo largo). En este caso, en su lugar, podríamos retroceder $W$ $X$ solo y obtener estimaciones de los compuestos coeficientes (ver este post).

Es correcto mezclar medidos y predichos por el modelo 2?

No viole a priori cualquier regla matemática, y lo que es "correcto". Si el estimador tiene buenas propiedades es un tema a ser investigado.

En la regresión para $W$ el postulado relación es que $W$ depende de las realizaciones de $Y$. Denotando $Z$ el teórico de la matriz de regresores, y la escritura en forma de bloque (para las dos mitades de la población) tenemos:

$$\mathbf Z_{n \times 2} = \left [\begin{matrix} \mathbf x_1 & \mathbf y_1 \\ \mathbf x_2 & \mathbf y_2 \end {de la matriz}\right]$$

mientras que el regresor de la matriz a utilizar será

$$\mathbf {\hat Z} = \left [\begin{matrix} \mathbf x_1 & \mathbf y_1 \\ \mathbf x_2 & \hat \beta\mathbf x_2 \end {de la matriz}\right],\;\;\mathbf {\hat Z}' = \left [\begin{matrix} \mathbf x_1' & \mathbf x_2' \\ \mathbf y_1' & \hat \beta\mathbf x_2' \end {de la matriz}\right]$$

A continuación, el $\gamma$ vector que tiene los coeficientes de la regresión para $W$ será estimado por MCO como

$$\hat \gamma = \left(\mathbf {\hat Z}'\mathbf {\hat Z}\right)^{-1}\mathbf {\hat Z}'\mathbf w = \left(\mathbf {\hat Z}'\mathbf {\hat Z}\right)^{-1}\mathbf {\hat Z}'\left(\mathbf Z\gamma + \mathbf u\right)$$

$$=\left(\mathbf {\hat Z}'\mathbf {\hat Z}\right)^{-1}\mathbf {\hat Z}'\mathbf Z\gamma +\left(\mathbf {\hat Z}'\mathbf {\hat Z}\right)^{-1}\mathbf {\hat Z}'\mathbf u \tag{1}$$

Escrito $ \mathbf y_2 = \hat \beta\mathbf x_2 + \mathbf e_{y_2}$ donde $\mathbf e_{y_2}$ es el error de predicción Tenemos

$$\mathbf {\hat Z}'\mathbf Z = \mathbf {\hat Z}'\left [\begin{matrix} \mathbf x_1 & \mathbf y_2 \\ \mathbf x_1 & \hat \beta\mathbf x_2 + \mathbf e_{y_2} \end {de la matriz}\right]= $$

$$=\mathbf {\hat Z}'\left( \left [\begin{matrix} \mathbf x_1 & \mathbf y_2 \\ \mathbf x_2 & \hat \beta\mathbf x_2 \end {de la matriz}\right] + \left [\begin{matrix} \mathbf 0 & \mathbf 0 \\ \mathbf 0 & \mathbf e_{y_2} \end {de la matriz}\right]\right) = \mathbf {\hat Z}'\mathbf {\hat Z} + \left [\begin{matrix} 0 & \mathbf x_2'\mathbf e_{y_2} \\ 0 & \hat \beta\mathbf x_2'\mathbf e_{y_2} \end {de la matriz}\right] \etiqueta{2}$$

La inserción de $(2)$ a $(1)$ tenemos

$$\hat \gamma = \gamma + \left(\mathbf {\hat Z}'\mathbf {\hat Z}\right)^{-1} \left [\begin{matrix} 0 & \mathbf x_2'\mathbf e_{y_2} \\ 0 & \hat \beta\mathbf x_2'\mathbf e_{y_2} \end {de la matriz}\right]\gamma +\left(\mathbf {\hat Z}'\mathbf {\hat Z}\right)^{-1}\mathbf {\hat Z}'\mathbf u \etiqueta{3}$$

Si en la regresión de $W$ hemos asumido estrictamente exógenos regresores, a continuación, tomar el valor esperado en $(3)$ condicional en las variables aleatorias observables, el 3d plazo (como de costumbre) es cero, pero también el 2do término es cero, ya que el error de predicción es condicionalmente ortogonal a la predictor. Por lo $\hat \gamma$ es imparcial. También es coherente. En estos aspectos es equivalente al estimador OLS podríamos obtener si pudiéramos observar todos los $Y$. Pero la varianza será diferente.

2voto

apiri Puntos 123

Usar la mitad del$y$ s previsto significaría que subestima fuertemente la varianza de$\beta_4$ en el modelo 2 ya que la predicción no se contabilizará!

Lo que sugiere sería una forma de imputación única que en general conduce a la subestimación de la varianza.

1voto

user27815 Puntos 1369

Usted puede pensar en esto en términos de aprendizaje de una característica de un conjunto en el aprendizaje de máquina.

Normalmente un conjunto diría que tiene 5 modelos de formación para predecir W y, a continuación, el conjunto modelo combina estos modelos para realizar una mejor predicción en W. Normalmente por algo tan simple como un voto. Pero no hay ninguna razón por la que estos 5 predicciones no se pueden combinar en una forma más compleja de usar cualquier ML algoritmo.

Ahora usted desea aprender un modelo para predecir y y, a continuación, utilice esta función para predecir W. Nada de malo en eso.

Usted está utilizando un modelo -Y como una función de entrada para el modelo de W.

Creo que esto está relacionado también con el semi-supervisado de aprendizaje, donde se puede utilizar el proxy medidas - Para predecir la medida que usted desee.

Por ejemplo, en una clasificación de la imagen se entrena un modelo para predecir el mar(Su etiquetado Y por ejemplo), otro para predecir la arena (otro modelo que decir Z, donde usted tiene etiquetas) y, a continuación, combinar estos modelos para predecir la playa. (Su W donde se han limitado etiquetado de datos). Donde W sería un modelo construido a partir de y y Z.

1voto

martino Puntos 1179

Buena pregunta. Yo no puedo decir que me han llegado a través de esto antes, pero el siguiente papel en la mediación, la capitalización y la supresión puede ser útil. Yo no puedo ver cómo la mezcla de $y_i$ $\hat{y_i}$ en el modelo 2 es incorrecta para cualquier estadístico de la razón. Sea o no esto conduce a una mejor predicción dependerá de las relaciones entre las diferentes variables. Para comenzar con, usted puede determinar un error esperado de la distribución, donde la predicción de la $y_i$'s están incluidos y excluidos y a ver a dónde conduce.

Si me enfrentaba con esto, me gustaría empezar por probar los modelos en un conjunto de datos generado para obtener un mejor entendimiento de cómo la inclusión de los conocidos y previstos de $y_i$ valores comparar incluyendo sólo la conoce $y_i$. Usted puede elegir los valores para los parámetros del modelo y generar aleatoriamente un conjunto de $x_i$ $y_i$ - descartar la mitad de la $y_i$'s. Dado este conjunto de datos se puede calcular los parámetros y distribuciones de error para el modelo 1 y modelo 2. Usted puede repetir esto para muchos conjuntos de datos generados para ayudar a entender las características de los modelos para la predicción de la $y_i$'s son incluidos o excluidos. El conocimiento adquirido debe ayudar a informar su decisión sobre el mejor enfoque.

1voto

divya nagar Puntos 51

El problema que se plantea me recuerda un poco al clásico problema de ajuste multivariante Gaussian mixture models (GMM), que es el arquetipo de la aplicación de la expectation maximization (EM) para el algoritmo.

En un nivel alto, es interesante pensar un poco acerca de cómo el algoritmo EM resuelve el GMM montaje problema, porque algunos de los básicos EM conceptos (si no el algoritmo EM directamente), son bastante aplicables y pueden ser fácilmente tomado y modificado para abordar su situación.

A modo de comparación con su propio problema, en un GMM montaje contexto, el problema básico de la declaración es esta: se le da un conjunto de datos que consta de un montón de azar vector de variables de $\vec{x}_{i}$ que proceden de una distribución de probabilidad que es una suma de varios multivariante de distribución Gausiana. Cada "modo" de la distribución tiene varias definición de parámetros, que están tratando de estimación basada en los datos: la media y la covarianza de curso, además de una relativa amplitud parámetro que da el tamaño relativo de cada modo, con respecto a los demás. La definición de estos parámetros están directamente análoga a la $\beta_{k}$ en el problema anterior. El GMM problema también contiene un completo conjunto de lo que se suele hablar de variables latentes $z_{i}$, que son esencialmente un postulado conjunto de variables adicionales que recorrer un largo camino para explicar las observaciones $\vec{x}_{i}$, si tan sólo pudiéramos observar. Lamentablemente, sin embargo, son esencialmente "falta de información", es por eso que nos referimos a ellos como latente.

En el GMM problema, la información que uno se imagina que residen dentro de las variables latentes teóricamente ser capaz de decirle (a condición de que en realidad podría observarlos) de modo que dentro de la mezcla fue específicamente responsables de dar lugar a cada una de las observaciones $\vec{x}_{i}$. Si los nodos se numeran $1, 2, 3,..., n$, entonces cada una de las $z_{i}$ será asignado un valor correspondiente de $1,...,n$, lo que indica que el nodo de la $i$th punto de datos de procedencia. (Variaciones en la básica EM esquema también se incluyen las distintas definiciones de la $z_{i}$, lo que se intenta asignar "grado o la probabilidad de pertenencia", por lo que no hacemos un duro asignación de cada punto de datos para un solo modo, pero que está empezando a llegar más allá del alcance de la discusión aquí.)

De todos modos, en el contexto de este particular stackexchange pregunta, el $y_{i}$ datos en la pregunta original, son una especie de términos análogos a medias "latente" de las variables en el lenguaje del algoritmo EM: es decir, algunos de los valores que se observan, y algunos no lo son, así que no son ni totalmente observado ni totalmente latente.

Para el caso totalmente latente (he.e, 100% no-observable) de las variables, la forma en que el algoritmo EM en realidad resuelve el GMM problema es empezar de forma aleatoria la asignación de un valor a cada variable latente $z_{i}$, luego estimar el mejor ajuste de los parámetros de $\beta_{k}$ (es decir, la media, la covarianza y la amplitud relativa en GMM), suponiendo que todos los de la inicial $z_{i}$ asignaciones eran correctos (por supuesto que no está correcto en todo, realmente, desde que nos acaba de asignar los valores de partida al azar, pero no te preocupes que todavía). Luego, utilizando el recientemente estimado de $\hat{\beta}_{k}$, el algoritmo calcula el más probable de los valores (es decir, que es una especie de re-predice) por la falta o variables latentes $\hat{z}_{i}$. En esencia, el algoritmo va de ida y vuelta entre dos pasos complementarios: en primer lugar, se intenta estimar el más probable de los valores de $\hat{\beta}_{k}$ para la verdadera $\beta_{k}$, sobre la base de sus estimaciones más recientes de la $\hat{z}_{i}$, y, a continuación, intenta actualizar su estimación del $\hat{z}_{i}$ basado en la más reciente estimación de la $\hat{\beta}_{k}$. El algoritmo continúa el ir y venir de este modo, hasta algún tipo de convergencia criterio que se cumple para ambas cantidades.

Así que, en analogía con el algoritmo EM, esto es lo que recomiendo para usted: ruta de acceso que se sugieren (mezcla de 50% que se observa en $y_{i}$ con 50% del valor predicho $\hat{y}_{i}$,, o, alternativamente, utilizando el 100% del valor predicho $\hat{y}_{i}$) es igualmente aceptable, porque en realidad, en cualquier caso, es sólo un primer paso. Lo que usted debe hacer a continuación, después de haber obtenido las estimaciones iniciales, por tanto el $\hat{\beta}_{k}$ e las $\hat{y}_{i}$, es seguir el ejemplo del algoritmo EM: ir a través de varios alternando etapas de perfeccionamiento de las estimaciones de ambos $\hat{\beta}_{k}$$\hat{y}_{i}$, derivando cada nueva estimación de un conjunto de cantidades basadas en el cálculo previo de los demás, de continuar de ida y vuelta hasta llegar a la convergencia de ambos. Por supuesto, en la iteración de ida y vuelta, a la hora de predecir la próxima actualización para $\hat{\beta}_{k}$ desde el anterior $\hat{y}_{i}$, se debe sustituir la real observada en $y_{i}$, allí donde estén disponibles, así que en ese sentido, supongo que mi recomendación es, de hecho, para mezclar 50% del valor predicho $\hat{y}_{i}$ con 50% que se observa en $y_{i}$, pero desde el punto de que el algoritmo es iterativa perseguir solución de convergencia, no necesariamente importa mucho qué tipo de $y$ valores que usted usa en el principio para empezar a rodar la pelota.

Haciendo de esta manera un beneficio adicional así: si alguien le pide que justifique su enfoque en el terreno teórico, se puede decir que es esencialmente una extensión del algoritmo EM, que se basa en el concepto de convergencia local con el fin de llegar a una respuesta estable. Dado que tanto el algoritmo EM, así como locales de convergencia se establecen los principios de la iterativo/recursiva de estimación de parámetros, esta metodología se basa en tierra firme, teóricamente hablando.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X