5 votos

De regresión para los pequeños de datos con un alto grado de multicolinealidad y los valores atípicos

Estoy trabajando en un promocional de análisis de respuesta. Tengo un muy pequeño el mundo real del conjunto de datos con 25 observaciones y 15 variables. Las variables tienen un alto grado de multicolinealidad y algunos tienen valores atípicos. También, no puedo utilizar los métodos de aprendizaje automático porque tengo necesidad de interpretar los coeficientes.

Esto es lo que he probado hasta ahora:

  1. He utilizado GLM, pero todas las variables parecía insignificante. Sé que es un hecho que la variable dependiente es sensible a muchas variables independientes.
  2. He utilizado la regresión robusta, pero básicamente el programa produce un error debido a que el software mostró un error que decía, "El número de observaciones debe ser al menos dos veces el número de coeficientes."

Yo realmente apreciaría si usted podría sugerir algunos métodos/técnicas o estrategias para resolver este problema. Gracias y saludos.

3voto

Chris Cudmore Puntos 634

Para empezar, en términos de un marco analítico...yo diría que usted tiene 15 variables independientes para elegir. Usted no tiene 15 variables independientes se tiene que incluir en el modelo. Dado que, tengo un par de ideas. Esperemos que uno de ellos va a ser útil. Antes de intentar cualquiera de las siguientes ideas, me gustaría examinar los valores atípicos. Yo no dudaría en tirar un par de esos (o utilizar una variable ficticia para el respectivo período de tiempo).

La primera idea es tratar de lo que yo llamaría manual de regresión paso a paso. Primero hacer una regresión lineal simple con la variable independiente que tiene la mayor correlación absoluta con la variable dependiente. A continuación, calcular los residuos de esta regresión. Y la mirada de la variable independiente entre el resto de los que tiene la mayor correlación con los residuales de la regresión. A continuación, vuelva a ejecutar la regresión con esas dos variables independientes. Usted puede añadir una 3ª o 4ª variable, repitiendo este proceso hasta se puede decir que ninguna de las restantes variables están correlacionadas suficiente para el residual de su última regresión. Normalmente, después de seleccionar 3 o 4 variables independientes de esta manera, usted está hecho. El modelo normalmente se rompe en pedazos cuando se agrega nada más que eso. Este proceso suele ser robusto, y por lo general no ocasiona "overfit" modelos porque se selecciona el par de variables.

Mi segunda idea es la de tratar de análisis de componentes principales (PCA), que es adecuado para tratar con multicollinear variables. Para que funcione, puede que tenga que reducir el número de variables de todos modos. Después de hacer la regresión paso a paso de la exploración, se convertirá en claro qué variables son superfluas. El reto de la PCA es que es bastante difícil. A menos que usted tenga el adecuado software estadístico, es bastante inaccesible. También a menudo se crea un poco de una caja negra. Los principales componentes son esencialmente los índices de la variable independiente combinaciones. A veces las combinaciones de las variables pueden tener una exposición narrativa (el S&P 500 es un buen índice de la captura de la actuación de 500 poblaciones diferentes). Desafortunadamente, la mayoría de componentes principales no tienen tan claro que una interpretación como el S&P 500.

En cualquier caso, espero que esas ideas de ayuda.

0voto

Aksakal Puntos 11351

si este es un análisis de la encuesta, entonces es posible que desee para tratar de algo que se llama "modelos de ecuaciones estructurales". es todo un campo en el análisis cualitativo, pero se puede obtener rápidamente el trabajo con el software, como el programa Stata.

el hecho de que dicen los datos es colineal es exactamente el problema con el que SEM ocupa.

-5voto

Zizzencs Puntos 1358

Mi consejo es "no intente hacer esto".

25 observaciones con 15 variables es muy overfit, incluso si cumple todos los supuestos de la regresión lineal. La colinealidad se hace un lío a su estándar de los errores y hacer que la salida altamente sensible a pequeños cambios en la entrada. Los valores atípicos pueden ser influyentes puntos (a pesar de que puede no ser así).

Si usted desea, puede ejecutar varias regresiones simples, con una sola IV en cada uno.

Pero si usted necesita para ejecutar el modelo con todos estos IVs, se necesita mucho más datos. Quizá 10 veces como mucho, tal vez más. A continuación, puede probar los árboles de regresión. Pero no la use en un pequeño conjunto de datos, como cualquier cosa que los rendimientos también se overfit (a pesar de que muchos de árbol métodos simplemente no se devuelve ningún modelo con este tipo de datos).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X