57 votos

Conceptos estadísticos visualmente interesantes y fáciles de explicar

He visto en Math Stack Exchange un un hilo conductor estupendo en el que se destacan una serie de conceptos matemáticos muy interesantes desde el punto de vista visual. Tendría curiosidad por ver los gráficos/gifs que alguien tenga que ilustren muy claramente un concepto estadístico (sobre todo los que puedan servir de motivación para los estudiantes que se inician en la estadística).

Estoy pensando en cosas en la línea de cómo vídeos de un tablero Galton hacen que el CLT sea inmediatamente relacionable.

18voto

James Puntos 21

La parcialidad puede ser buena

Un $\color{orangered}{\text{unbiased estimator}}$ es, por término medio, correcto. A $\color{steelblue}{\text{biased estimator}}$ no es correcta por término medio.

Entonces, ¿por qué querrías utilizar un estimador sesgado (por ejemplo, la regresión de cresta)?

biased_estimator

La respuesta es que la introducción de un sesgo puede reducir la varianza .

En la imagen, para una muestra determinada, el $\color{orangered}{\text{unbiased estimator}}$ tiene un $68\%$ oportunidad de estar dentro $1$ unidad arbitraria del parámetro verdadero, mientras que el $\color{steelblue}{\text{biased estimator}}$ tiene un tamaño mucho mayor $84\%$ oportunidad.

Si el sesgo que ha introducido reduce la varianza del estimador lo suficiente, su única muestra tiene más posibilidades de producir una estimación cercana al parámetro poblacional.

"Por término medio correcto" suena muy bien, pero no da ninguna garantía de hasta qué punto las estimaciones individuales pueden desviarse del parámetro poblacional. Si se extraen muchas muestras, el $\color{steelblue}{\text{biased estimator}}$ se equivocaría por término medio en $0.5$ unidades arbitrarias. Sin embargo, rara vez disponemos de muchas muestras de la misma población para observar esta "estimación media", por lo que preferimos cerrar al parámetro verdadero.

17voto

TrynnaDoStat Puntos 3590

Para entender por primera vez los estimadores y su error, es útil comprender dos fuentes de error: el sesgo y la varianza. La siguiente imagen ilustra muy bien este aspecto y destaca las compensaciones entre estas dos fuentes de error.

enter image description here

La diana es el valor real que el estimador intenta estimar y cada punto representa una estimación de ese valor. Lo ideal es tener un sesgo y una varianza bajos, pero los otros tableros de dardos representan estimadores menos que ideales.

14voto

chris Puntos 21

Análisis de componentes principales (PCA) El PCA es un método de reducción de la dimensión. Proyecta las variables originales en la dirección que maximiza la varianza.

En nuestra figura, los puntos rojos proceden de una distribución normal bivariada. Los vectores son los vectores propios y el tamaño de estos vectores es proporcional a los valores de los respectivos valores propios. El análisis de componentes principales proporciona nuevas direcciones que son ortogonales y apuntan a las direcciones de alta varianza.

enter image description here

11voto

victor Puntos 1

Vectores propios y valores propios

El concepto de vectores propios y valores propios que son la base del análisis de componentes principales (ACP), como se explica en la wikipedia:

En esencia, un vector propio $v$ de una transformación lineal $T$ es un vector no nulo que, cuando $T$ se le aplica, no cambia de dirección. Aplicando $T$ al eigenvector sólo escala el eigenvector por el valor escalar $\lambda$ , llamado valor propio. Esta condición se puede escribir como la ecuación: $T(v) = \lambda v$ .

La afirmación anterior se explica muy elegantemente con este gif:

enter image description here

Vectores marcados en azul $\begin{bmatrix}1 \\1 \\ \end{bmatrix}$ y magenta $\begin{bmatrix}1 \\-1 \\ \end{bmatrix}$ son vectores propios de la transformación lineal, $T = \begin{bmatrix}2 & 1 \\1 & 2 \\ \end{bmatrix}$ . Los puntos que se encuentran en la línea que pasa por el origen, paralela a los vectores propios, permanecen en la línea después de la transformación. Los vectores en rojo no son vectores propios, por lo que su dirección se ve alterada por la transformación. Los vectores azules se escalan por un factor de 3, que es el valor propio del vector propio azul, mientras que los vectores magenta no se escalan, ya que su valor propio es 1.


Enlace al artículo de Wikipedia.

9voto

chris Puntos 21

Varianza del sesgo de compensación es otro concepto muy importante en Estadística/Aprendizaje Automático.

Los puntos de datos en azul provienen de $y(x)=\sin(x)+\epsilon$ , donde $\epsilon$ tiene una distribución normal. Las curvas rojas se estiman utilizando diferentes muestras. La figura "Varianza grande y sesgo pequeño" presenta el modelo original, que es una red de funciones de base radial con 24 bases gaussianas.

La figura "Varianza pequeña y sesgo grande" presenta el mismo modelo regularizado.

Obsérvese que en la figura "Varianza pequeña y sesgo grande" las curvas rojas están muy próximas entre sí (varianza pequeña). No ocurre lo mismo en la figura "Varianza grande y sesgo pequeño" (varianza grande).

Varianza pequeña y sesgo grande enter image description here

Varianza grande y sesgo pequeño enter image description here

De mi curso de métodos informáticos y aprendizaje automático .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X