9 votos

¿Cuál es el problema

Sé que esta es la solución del sistema de ecuaciones lineales de problema.

Pero mi pregunta es ¿por qué es un problema el número de observación es menor que el número de predictores de cómo puede ocurrir algo?

No la recolección de datos que vienen desde el delicado diseño de la encuesta o el diseño experimental en la medida en que al menos a pensar en esta cosa?

Si la recolección de datos a recolectar 45 variables para llevar a cabo la investigación, a continuación, ¿por qué iba a cobrar menos de 45 observación? ¿Me olvido de algo y aunque el modelo parte de la selección, también se elimina la no mejoría de las variables en la respuesta y siempre de la recogida de la variable será eliminado a $45-(45-p)$ derecho?

Entonces, ¿por qué nos enfrentamos a la no única solución en estos casos?

12voto

dan90266 Puntos 609

Esta es una muy buena pregunta. Cuando el número de candidatos predictores $p$ es mayor que el tamaño efectivo de la muestra $n$, y uno no coloca restricciones sobre los coeficientes de regresión (por ejemplo, uno no es el uso de la contracción, una.k.una. penalizado estimación de máxima verosimilitud o regularización), la situación es desesperada. Yo digo que por varias razones, incluyendo

  • Si usted piensa en la cantidad de no-redundante combinación lineal de variables que pueden ser analizadas, este número es $\leq \min(n, p)$. Por ejemplo, usted no puede incluso calcular, mucho menos confianza, componentes principales, más allá de $\min(n, p)$.
  • Con $p = n$ y no hay dos $y$-coordenadas en una línea vertical al trazar $(x, y)$, se puede lograr la $R^{2}=1.0$ para cualquier conjunto de datos, incluso si el verdadero población $R^2$ es 0.0.
  • Si utiliza cualquier algoritmo de selección de características tales como el temido paso a paso los modelos de regresión, la lista de características "seleccionado" va a ser esencialmente un conjunto aleatorio de cuenta con ninguna esperanza de replicar en otra muestra. Esto es especialmente cierto si existen correlaciones entre el candidato características, por ejemplo, co-linealidad.
  • El valor de $n$ necesario para estimar decente con la precisión de un único coeficiente de correlación entre dos variables es de alrededor de 400. Vea aquí.

En general, un estudio que pretende analizar 45 variables en 45 sujetos está mal planeada, y la única manera de rescatar lo que yo conozco son

  • Pre-especificar uno o dos predictores para analizar e ignorar el resto
  • Uso penalizado de estimación, tales como ridge de regresión para ajustar todas las variables, pero tomar los coeficientes con un grano de sal (pesado descuento)
  • El uso de la reducción de datos, por ejemplo, componentes principales, la variable de agrupación, escaso de componentes principales (mi favorito) como se discutió en mi RMS libro y las notas del curso. Esto implica la combinación de variables que son difíciles de separar, y no tratando de estimar los efectos de cada uno de ellos. Para $n=45$ sólo se puede conseguir con 2 derrumbó puntuaciones para jugar contra $y$. La reducción de datos (sin supervisión de aprendizaje) es más interpretable que la mayoría de los otros métodos.

Un detalle técnico: si utiliza uno de los mejor combinación variable de selección/penalización métodos tales como el lazo o elástico de la red usted puede disminuir el riesgo de sobreajuste, pero en última instancia será decepcionado de que la lista de características seleccionadas es muy inestable y no se replicarán en otros conjuntos de datos.

3voto

boomkin Puntos 13

Esto podría ocurrir en muchos escenarios, algunos ejemplos son:

  1. Médicos de análisis de datos en los hospitales. Los investigadores médicos a estudiar un tipo particular de cáncer, principalmente, puede hacer la recolección de datos en su propio hospital, y yo creo que no es una mala cosa que tratar de recoger tantas variables como sea posible a partir de un determinado paciente, como la edad, el género, el tamaño del tumor, resonancia magnética, tomografía computarizada de volumen.
  2. Micro platereader los estudios de la matriz en la bioinformática. Es a menudo el caso de que usted no tiene muchas especies, pero usted quiere ser capaz de probar tantos efectos como sea posible.
  3. Análisis de imágenes. De que a menudo han de 16 millones de píxeles, mientras que es muy difícil recopilar y almacenar muchas imágenes.
  4. La resonancia magnética reconstrucciones son a menudo similares a los problemas, que necesitan escasa técnicas de regresión, y la mejora de ellos es realmente una cuestión central en la resonancia magnética de la investigación.

La solución es realmente, para mirar la regresión de la literatura y encontrar lo que mejor funciona para su aplicación.

  1. Si usted tiene conocimiento de un dominio, incorporar en su distribución previa y tomar un enfoque Bayesiano con Bayesiano de Regresión Lineal.

  2. Si usted quiere encontrar una solución dispersa, automático de la relevancia de la determinación empírica del enfoque Bayesiano podría ser el camino a seguir.

  3. Si usted piensa que su problema, tener una idea de las probabilidades es inapropiado (como resolver un sistema lineal de ecuaciones), puede ser vale la pena mirar de Moore-Penrose pseudoinverse.

  4. Puede que el planteamiento de una selección de la función de la perspectiva, y reducir el número de p hasta que se plantea un problema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X