6 votos

Cómo tratar con los coeficientes de falta mientras arranque regresiones

Estoy usando R de arranque() función para realizar la regresión de arranque.

Cuando inicio() cambia la resolución mis datos, puede suceder que algunos de los coeficientes que faltan, especialmente en el caso de factor de variables con muchos casos.

¿Cómo lidiar con esta situación, desde el punto de vista teórico?

En mi aplicación tengo sustituto de la falta de coeficientes con NAs, por lo tanto, hacer caso omiso de ellas cuando la construcción de las estadísticas sobre la distribución bootstrap.

Como una alternativa pensé en el uso de 0, pero no va a funcionar como un encogimiento de regularización empujando la distribución a 0?

En otras ocasiones, la función de regresión se bloquea debido a que algunos de los factores variables son despojadas de todos los niveles, pero uno no puede ser un predictor con un solo valor. En este caso estoy totalmente de ignorar los coeficientes de regresión y dar la espalda NAs. Pero no puedo entender si está bien suelta un conjunto de regresión sólo por un predictor de ser inútil. Debo tira el predictor?

En conclusión, me gustaría saber: - ¿Cómo lidiar con la falta de coeficientes, debo usar el NAs o Ceros. - ¿Cómo lidiar con la función de regresión se bloquea a menudo debido a los predictores de la izquierda con un solo nivel? debo tira el predictor?

Gracias

3voto

Cliff AB Puntos 3213

Un método que puede ser utilizado (con precaución!!) es un estratificado de bootstrap. Es decir, supongamos que tenemos 20 sujetos en el grupo 1 y 20 en el grupo 2. Entonces podemos volver a muestrear nuestros datos, condicional en estos tamaños de muestra (es decir, volver a muestrear 20 del grupo 1 y el 20 del grupo 2). Debido a esto, ahora estamos asegurado que el estimador de la diferencia será definida en cada bootstrap de la muestra.

En términos de la precaución, es necesario darse cuenta de que usted podría ser la realización de arranque en muy pequeñas submuestras! Un ejemplo trivial es de suponer que estratificado por x, pero x es continua. A continuación, cada una de las muestras sería la propia de los estratos y nuestra estimación de la varianza de 0. Claramente un problema.

En tu caso, estoy seguro de que usted tiene más de 1 observación por nivel, pero usted todavía tiene que ser cuidadoso de los resultados si el número de observaciones por nivel es muy pequeño. Si ese es el caso, me volvería a considerar la posibilidad de Jeremy sugerencia de que se trata de combinar los niveles que pueden ser muy similares entre sí en la naturaleza.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X