9 votos

Regresión múltiple con variable predictora faltante

Supongamos que tenemos un conjunto de datos de la forma$(y,x_{1},x_{2},\cdots, x_{n})$$(y,x_{1},x_{2},\cdots, x_{n-1})$. Estamos dado a la tarea de predecir el $y$ basado en los valores de $x$. Estimamos dos regresiones donde: $$ \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} $$

Estimamos una regresión que predice los valores de $x_{n}$ basado en los valores de $(x_{1},\cdots, x_{n-1})$, que es: $$ x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \etiqueta{3} $$

Supongamos ahora que nos han dado los valores de $(x_{1},\cdots, x_{n-1})$, entonces tendríamos dos métodos diferentes para predecir $y$:

$$ \begin{align} y&=f_{1}(x_{1},\cdots, x_{n-1},f_{3}(x_{1},\cdots,x_{n-1})) \tag{4} \\ y&=f_{2}(x_{1},\cdots, x_{n-1}) \tag{5} \end{align} $$

Cuál sería la mejor en general?

Supongo que la primera ecuación sería mejor, ya que utiliza la información de las dos formas de puntos de datos, mientras que la segunda ecuación utiliza información sólo de puntos de datos que tienen $n-1$ predictor de valores. Mi formación en estadísticas es limitada y por lo tanto me gustaría buscar un consejo profesional.

También, en general, ¿cuál es la mejor aproximación a los datos que tienen información incompleta? En otras palabras, ¿cómo podemos extraer la mayor parte de la información a partir de datos que no tienen valores en todos los $n$ dimensiones?

6voto

Sean Hanley Puntos 2428

+1, creo que este es un muy interesante y claramente la pregunta. Sin embargo, más información nos ayudará a pensar en esta situación.

Por ejemplo, ¿cuál es la relación entre el$x_n$$y$? Es muy posible que no hay uno, en cuyo caso, la regresión $(1)$ no ofrece ninguna ventaja con respecto a la regresión $(2)$. (En realidad, es en una muy ligera desventaja, en el sentido de que los errores estándar será un poco más grande, y por lo tanto las betas podría ser un poco más, en promedio, de sus verdaderos valores.) Si hay una función de mapeo $x_n$$y$, entonces, por definición, no es real la información que hay, y la regresión $(1)$ va a ser mejor que en la situación inicial.

Siguiente, ¿cuál es la naturaleza de la relación entre el$(x_1, \cdots, x_{n-1})$$x_n$? Hay uno? Por ejemplo, cuando llevamos a cabo experimentos, (generalmente) tratamos de asignar el mismo número de unidades de estudio para cada combinación de valores de las variables explicativas. (Este enfoque utiliza un múltiplo del producto Cartesiano de los niveles de la IV, y se denomina " factorial completo de diseño; también hay casos donde los niveles son intencionalmente confundido para guardar datos, llamado 'factorial fraccional' diseños.) Si las variables explicativas son ortogonales, su tercera regresión dará absolutamente, exactamente 0. Por otro lado, en un estudio observacional que las covariables son casi siempre correlacionados. Más fuerte que la correlación, la que menos información existe en $x_n$. Estos hechos se modulan los méritos relativos de regresión $(1)$ y regresión $(2)$.

Sin embargo, (por desgracia) es más complicado que eso. Uno de los importantes, pero es difícil, los conceptos de regresión múltiple es la multicolinealidad. En caso de que trate de estimar la regresión $(4)$, usted encontrará que usted tiene perfecta multicolinealidad, y el software le dirá que el diseño de la matriz no es invertible. Así, mientras que la regresión $(1)$ puede ofrecer una ventaja con respecto a la regresión $(2)$, regresión $(4)$ no.

La pregunta más interesante (y el que usted está pidiendo a) es lo que si se utiliza la regresión $(1)$ hacer predicciones acerca de $y$ mediante el cálculo de la $x_n$ valores de salida a partir de las predicciones de regresión $(3)$? (Es decir, no eres la estimación de la regresión $(4)$—estás conectando la salida de la predicción de la ecuación estimada de regresión $(3)$ en el modelo de predicción de $(4)$.) La cosa es que usted no está realmente ganando cualquier nueva información aquí. Toda la información que existe en el primer $n-1$ predictor de valores para cada observación ya está siendo utilizado de manera óptima por regresión $(2)$, por lo que no hay ganancia.

Por lo tanto, la respuesta a tu primera pregunta es que bien podría ir con la regresión $(2)$ de sus predicciones para guardar el trabajo innecesario. Tenga en cuenta que he estado tratando con esto de una manera bastante abstracta, en lugar de abordar la situación concreta que usted describe en el que alguien de manos de dos conjuntos de datos (simplemente no puedo imaginar que esto ocurra). En lugar de eso, estoy pensando en esta pregunta, como tratando de entender algo bastante profundo acerca de la naturaleza de la regresión. Lo que ocurre, en ocasiones, sin embargo, es que algunas de las observaciones que tengan los valores en todos los predictores, y algunas otras observaciones (dentro del mismo conjunto de datos) faltan algunos valores en algunos de los predictores. Esto es particularmente común cuando se trata con datos longitudinales. En tal situación, usted quiere investigar múltiples de la imputación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X