¿Qué significa cuando estadísticos hablar acerca de tener más predictores de las observaciones en el modelo de regresión? ¿Cómo puede eso ser posible? ¿Por qué es un problema de regresión? Disculpas, soy nuevo en quant análisis y estadísticas de manera no muy seguro de por qué este es el caso? Agradecería la más simple explicación posible -
Respuesta
¿Demasiados anuncios?Creo que la confusión viene de la manera en que la palabra "observación" se utiliza a veces. Decir que lo que usted quería saber cómo la expresión de 20.000 genes estaba relacionado con algunos continuo biológico de variables como la presión arterial. Usted tiene los datos tanto en la expresión de 20.000 genes y en la presión arterial para 10.000 personas. Usted podría pensar que esto implica a 10,000 * 20,001 = 200,010,000 observaciones. Existen, sin duda, que muchos de los puntos de datos individuales. Pero cuando las personas dicen que hay "más predictores de observaciones" en este caso, que sólo cuenta individual de cada persona como una "observación"; una "observación" es entonces un vector de todos los puntos de datos recogidos en un solo individuo. Podría ser menos confuso para decir "casos" en lugar de "observaciones", sin embargo, su uso en la práctica a menudo se ha escondido supuestos como este.
El problema con más predictores de los casos (normalmente indicado como "$p>n$") es que no hay solución única a un estándar de la regresión lineal del problema. Si el número de filas de la matriz de puntos de datos representan los casos y las columnas representan los predictores, no son necesariamente lineales dependencias entre las columnas de la matriz. Así que una vez que usted haya encontrado coeficientes de $n$ de los predictores, los coeficientes de las otras $(p-n)$ predictores puede ser expresado como arbitrario de las combinaciones lineales de los primeros a $n$ predictores. Otros enfoques, como el LAZO o la cresta de regresión, o una variedad de otras máquinas-enfoques de aprendizaje, proporcionar formas de proceder en tales casos.