El problema que se plantea me recuerda un poco al clásico problema de ajuste multivariante Gaussian mixture models (GMM), que es el arquetipo de la aplicación de la expectation maximization (EM) para el algoritmo.
En un nivel alto, es interesante pensar un poco acerca de cómo el algoritmo EM resuelve el GMM montaje problema, porque algunos de los básicos EM conceptos (si no el algoritmo EM directamente), son bastante aplicables y pueden ser fácilmente tomado y modificado para abordar su situación.
A modo de comparación con su propio problema, en un GMM montaje contexto, el problema básico de la declaración es esta: se le da un conjunto de datos que consta de un montón de azar vector de variables de $\vec{x}_{i}$ que proceden de una distribución de probabilidad que es una suma de varios multivariante de distribución Gausiana. Cada "modo" de la distribución tiene varias definición de parámetros, que están tratando de estimación basada en los datos: la media y la covarianza de curso, además de una relativa amplitud parámetro que da el tamaño relativo de cada modo, con respecto a los demás. La definición de estos parámetros están directamente análoga a la $\beta_{k}$ en el problema anterior. El GMM problema también contiene un completo conjunto de lo que se suele hablar de variables latentes $z_{i}$, que son esencialmente un postulado conjunto de variables adicionales que recorrer un largo camino para explicar las observaciones $\vec{x}_{i}$, si tan sólo pudiéramos observar. Lamentablemente, sin embargo, son esencialmente "falta de información", es por eso que nos referimos a ellos como latente.
En el GMM problema, la información que uno se imagina que residen dentro de las variables latentes teóricamente ser capaz de decirle (a condición de que en realidad podría observarlos) de modo que dentro de la mezcla fue específicamente responsables de dar lugar a cada una de las observaciones $\vec{x}_{i}$. Si los nodos se numeran $1, 2, 3,..., n$, entonces cada una de las $z_{i}$ será asignado un valor correspondiente de $1,...,n$, lo que indica que el nodo de la $i$th punto de datos de procedencia. (Variaciones en la básica EM esquema también se incluyen las distintas definiciones de la $z_{i}$, lo que se intenta asignar "grado o la probabilidad de pertenencia", por lo que no hacemos un duro asignación de cada punto de datos para un solo modo, pero que está empezando a llegar más allá del alcance de la discusión aquí.)
De todos modos, en el contexto de este particular stackexchange pregunta, el $y_{i}$ datos en la pregunta original, son una especie de términos análogos a medias "latente" de las variables en el lenguaje del algoritmo EM: es decir, algunos de los valores que se observan, y algunos no lo son, así que no son ni totalmente observado ni totalmente latente.
Para el caso totalmente latente (he.e, 100% no-observable) de las variables, la forma en que el algoritmo EM en realidad resuelve el GMM problema es empezar de forma aleatoria la asignación de un valor a cada variable latente $z_{i}$, luego estimar el mejor ajuste de los parámetros de $\beta_{k}$ (es decir, la media, la covarianza y la amplitud relativa en GMM), suponiendo que todos los de la inicial $z_{i}$ asignaciones eran correctos (por supuesto que no está correcto en todo, realmente, desde que nos acaba de asignar los valores de partida al azar, pero no te preocupes que todavía). Luego, utilizando el recientemente estimado de $\hat{\beta}_{k}$, el algoritmo calcula el más probable de los valores (es decir, que es una especie de re-predice) por la falta o variables latentes $\hat{z}_{i}$. En esencia, el algoritmo va de ida y vuelta entre dos pasos complementarios: en primer lugar, se intenta estimar el más probable de los valores de $\hat{\beta}_{k}$ para la verdadera $\beta_{k}$, sobre la base de sus estimaciones más recientes de la $\hat{z}_{i}$, y, a continuación, intenta actualizar su estimación del $\hat{z}_{i}$ basado en la más reciente estimación de la $\hat{\beta}_{k}$. El algoritmo continúa el ir y venir de este modo, hasta algún tipo de convergencia criterio que se cumple para ambas cantidades.
Así que, en analogía con el algoritmo EM, esto es lo que recomiendo para usted: ruta de acceso que se sugieren (mezcla de 50% que se observa en $y_{i}$ con 50% del valor predicho $\hat{y}_{i}$,, o, alternativamente, utilizando el 100% del valor predicho $\hat{y}_{i}$) es igualmente aceptable, porque en realidad, en cualquier caso, es sólo un primer paso. Lo que usted debe hacer a continuación, después de haber obtenido las estimaciones iniciales, por tanto el $\hat{\beta}_{k}$ e las $\hat{y}_{i}$, es seguir el ejemplo del algoritmo EM: ir a través de varios alternando etapas de perfeccionamiento de las estimaciones de ambos $\hat{\beta}_{k}$$\hat{y}_{i}$, derivando cada nueva estimación de un conjunto de cantidades basadas en el cálculo previo de los demás, de continuar de ida y vuelta hasta llegar a la convergencia de ambos. Por supuesto, en la iteración de ida y vuelta, a la hora de predecir la próxima actualización para $\hat{\beta}_{k}$ desde el anterior $\hat{y}_{i}$, se debe sustituir la real observada en $y_{i}$, allí donde estén disponibles, así que en ese sentido, supongo que mi recomendación es, de hecho, para mezclar 50% del valor predicho $\hat{y}_{i}$ con 50% que se observa en $y_{i}$, pero desde el punto de que el algoritmo es iterativa perseguir solución de convergencia, no necesariamente importa mucho qué tipo de $y$ valores que usted usa en el principio para empezar a rodar la pelota.
Haciendo de esta manera un beneficio adicional así: si alguien le pide que justifique su enfoque en el terreno teórico, se puede decir que es esencialmente una extensión del algoritmo EM, que se basa en el concepto de convergencia local con el fin de llegar a una respuesta estable. Dado que tanto el algoritmo EM, así como locales de convergencia se establecen los principios de la iterativo/recursiva de estimación de parámetros, esta metodología se basa en tierra firme, teóricamente hablando.