4 votos

Función para penalizar valores extremos.

Estoy llevando a cabo el análisis de un corpus de datos y actualmente estoy investigando la frecuencia de las palabras que aparecen en el corpus.

Lo que estoy buscando es una función que desfavorece a grandes y pequeños valores de modo que, en lugar de un gráfico de disminución de los valores como las palabras se vuelven más frecuentes, me quedaré con una aproximación de una curva en forma de campana.

Cualquier ayuda sería muy apreciada.

Patrick Original and Transformed data

2voto

Adrian Keister Puntos 588

Bueno, se puede jugar con el estándar de Gauss. Supongamos que el valor más pequeño es $x_{\min}$ y su más grande es $x_{\max}$. A continuación, la mediana sería $(x_{\max}+x_{\min})/2$, que podría definir a ser $\mu$. La distribución normal es $\displaystyle f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}.$ El $\sigma$ parámetro es una medida de la difusión de sus datos, por lo que podría jugar con eso. Me gustaría recomendar la codificación de este todo en Excel. Así que usted tiene su histograma de los datos en una columna, calcular el max y min, y luego el código de esta función, la referencia a una celda cambiante como el $\sigma$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X