Soy nuevo en Estadísticas y tengo un contexto matemático. En Estadísticas, especialmente en la Regresión Lineal y Análisis de Componentes Principales (PCA) por el momento lo que tengo entendido es que la idea principal es tratar de capturar la mayor cantidad posible de la variabilidad presente en los datos. En la regresión lineal, mientras que el cálculo de $ R^{2} (R \ squared)$ medida estamos revisando la proporción de la variabilidad capturado por nuestro modelo y en el PCA estamos formando una nueva base, a lo largo de la cual nuestros datos tiene el máximo posible de la variabilidad. ¿Hay algún resultado significativo detrás de esta lógica? Me refiero a por qué tenemos que ir después de la variabilidad? Cualquier ayuda en este asunto será apreciado.
Respuestas
¿Demasiados anuncios?La estadística es la interfaz entre las matemáticas (modelos del mundo) y nuestra percepción de la realidad. Sospecho que lo que busca no es una prueba, sino una comprensión de los supuestos.
Matemáticas de las pruebas formales de la lógica del sistema que funciona porque es autónomo (en mi formación como químico, esto podría ser llamado un adiabetic). Todas las pruebas resto de supuestos, y los teoremas de incompletitud de demostrar que un sistema no puede probar su propia consistencia ni probar cada declaración verdadera.
De datos es percibido información sobre el mundo (incluso si la tecnología ha capturado). Los datos subyacentes procesos de generación son muchas y complejas, y no físicas del mundo real sistema está cerca de adiabetic,permitiendo a las influencias externas que perturban el sistema que está siendo investigado. La teoría cuántica nos dice que nunca podremos saber cada detalle de un sistema perfectamente.
Hay incertidumbres en ambos lados de la ecuación.
La pregunta estadísticas de intentos de respuesta es lo que los datos nos dicen sobre el modelo que tenemos, o viceversa lo que nuestro modelo nos puede decir acerca de nuestros datos. Los dos no coinciden, así que lo que nos interesa es cuánto no coinciden, es decir, cuánto hace que nuestros datos pueden variar fuera de las restricciones de nuestro modelo.
Un dicho popular que dice que en este sitio es que todos los modelos están equivocados, pero algunos son útiles. La medición de la varianza explicada nos permite evaluar un aspecto de esta utilidad, pero está lejos de ser el único. La métrica empleada debe ser la adecuada a las preguntas formuladas.
Así que algunos de los supuestos básicos en la evaluación de la varianza (estoy seguro de que va a ser incompleta, así que siéntete libre de comentar) 1 El modelo no es perfecto, pero explica una máxima proporción de los fenómenos observados 2 Los datos no es pura, contiene ruido y los sesgos que no están relacionados con el modelo de 3 necesitamos un modelo que explica la mayor cantidad de datos proceso de generación como sea posible 4 necesitamos un modelo que es capaz de ignorar el ruido 5 Procesos externos en el sistema bajo investigación insignificante influencia.
Existen herramientas para la evaluación de la validez de estas hipótesis, que es la razón por estadísticas es tan complicado, pero puede revelar mucho.
Es importante entender el propósito de estadísticas (algo comúnmente mal entendido por ambos matemáticos y científicos). El punto de estadísticas no es una prueba o verdad, es assesing riesgo.
En muchos casos la razón por la que el uso de la regresión para explicar la variabilidad. En ese sentido, ¿cuánto de la variabilidad es explicada es una de las medidas clave de éxito.
Esto puede ser más claro con un ejemplo. Recientemente he trabajado en un proyecto donde hemos creado un modelo de regresión para explicar el rendimiento de los empleados. Hicimos esto porque nuestros grupos de interés (alta dirección) quería saber por qué algunos empleados estaban haciendo bien y a otros no. Es decir, ¿por qué vemos la varianza en el rendimiento de los empleados?
Formulada de esta manera se debe tener claro que una de las principales métricas de rendimiento de nuestro modelo es cuánto de la variabilidad correctamente anticipa.
He aquí mis pocos centavos..
Co-movimiento de los independientes y la variable dependiente es la clave aquí. Supongamos que queremos averiguar cómo los cambios de altura con la edad y disponer de los datos para 100 personas. Digamos que sabemos que nuestra variable independiente (altura) varía mucho entre los 100 observaciones, pero queremos saber cómo gran parte de ella proviene de la co-circulación de la altura y la edad. Por lo tanto, se ajustan a un modelo y a la estimación de cuánto de la variación en la altura puede ser explicado a partir de co-movimiento w.r.t. edad.
Si en nuestros datos, todo el mundo tiene la misma edad, el modelo no será capaz de explicar de la altura de la varianza, tendremos que encontrar algo que explica el movimiento (varianza) de la variable independiente. Explicar el movimiento (varianza) de la variable independiente es un buen punto de partida para todos los modelos de predicción.
En el PCA, el objetivo es rotar los datos para obtener el mejor eje para más limpio perspectiva. El uso de varianza para cambiar la base es sólo una manera de conseguir esta perspectiva sobre cómo los datos se dispersa en un hyperplane.
la regresión lineal, mientras que el cálculo de $R^2(R squared)$ medida estamos revisando la proporción de la variabilidad capturado por nuestro modelo
Esto es cierto. Esta es una de las métricas de rendimiento utilizado para la medición de cuánto de la variabilidad se explica en comparación con el total de la variabilidad en la respuesta.
la idea principal es tratar de capturar la mayor cantidad posible de la variabilidad presente en los datos.
Esto está lejos de la verdad. Si este fuera el objetivo, que siempre tienen modelos de regresión con $R^2 = 1$. Usted siempre puede tener mayor grado términos de las variables explicativas y de adaptarse perfectamente a los datos. Pero que modelo será de ninguna utilidad como lo habría capturado el ruido también.
Así que, ¿qué hace un modelo de regresión hacer?
Un modelo de regresión es una forma de expresar los dos ingredientes esenciales de un estadístico de la relación:
- Una tendencia de la variable de respuesta $Y$ a variar con la variable predictora $X$ en una manera sistemática.
- Una dispersión de los puntos alrededor de la curva de relación estadística.
¿Cómo podemos conseguir una manija en la variable de respuesta $Y$?
Por postular que:
Hay una distribución de probabilidad de $Y$ por cada nivel de $X$.
El medio de estas distribuciones de probabilidad variar en algunos sistemática de la moda con $X$.
Los modelos de regresión pueden diferir en la forma de la función de regresión (lineal, convexo), en la forma de las distribuciones de probabilidad de $Y$ (simétricos, asimétricos), y en otras maneras.
Cualquiera que sea la variación, el concepto de una distribución de probabilidad de $Y$ cualquier $X$ es la formal contraparte empírica de la dispersión en un estadístico de la relación.
En condiciones Normales de Error del modelo de Regresión tratamos de estimar la distribución condicional de la media de $Y$ da $X$ que está escrito, como el de abajo:
$$Y_i = \beta_0\ + \beta_1X_i + \epsilon$$ donde:
$Y_i$ es la respuesta observada $X_i$ es una constante, el nivel de la variable de predicción
$\beta_0\\$ e $\beta_1\\$ son parámetros
$\epsilon\\$ son independientes $N(O,\sigma^2)$
$i$ = 1, ... ,n
Así, para estimar el $E(Y|X)$ necesitamos calcular los tres parámetros que son: $\beta_0\\$, $\beta_1\\$ e $\sigma^2$. Podemos encontrar que mediante la maximización de la función de probabilidad.