4 votos

Una medida similar a la varianza que siempre está entre 0 y 1?

Considere el siguiente histograma, obtenido a partir de alrededor de 1000 medidas de distancia.

enter image description here

Como se puede observar, la mayoría de los datos que aparece cerca de la media de los alrededores del valor 5-10. También tengo algunos aislados de muestras de lejos en los valores de 100, 160.

1) ¿hay alguna medida estadística que puede utilizar para detectar cuando esto sucede? A veces no hay valores atípicos y estoy tratando de detectar estos casos. Yo estaba pensando umbral de la varianza, pero estoy buscando una medida con un valor en un intervalo fijo (por ejemplo, siempre de 0 a 1).

2) estoy tratando de conseguir un intervalo como el de la roja, que sólo incluye las medidas en torno a la media. Estoy buscando un método que funciona para diferentes histogramas con una forma similar (número de lecturas y los valores pueden variar, pero la forma es siempre similar). Podría usted me sugieren un método?

2voto

mathreadler Puntos 3517

Un ejemplo de este tipo de funciones es la exponencial de la familia:

$$f(v) = \exp[-v^k/s^k]$$

La entrada de la varianza, que es en $[0,+\infty]$ y consigue algo que es $[0,1]$

  1. Si la varianza es $0$ obtener $1$ y
  2. el desacuerdo más grande cuanto más cerca se llega a $0$.
  3. $s$ $k$ son ambos parámetros se puede dirigir a la velocidad para reducir a $0$.

Si desea que el frente se puede tomar sólo $1-f(v)$ lugar.

1voto

Hurkyl Puntos 57397

Para responder a la pregunta del título, si $|X - X_0| \leq 1$, entonces la varianza de $X$ tiene que estar delimitado por $1$. Así que usted podría utilizar cualquier valor real de la función que se derrumba el rango de $X$ a un intervalo de radio 1.

Por ejemplo, usted podría medir

$$ \mathrm{Var}\left( \frac{2}{\pi} \arctan(X - X_0) \right) $$

(esta respuesta no pretende abordar cualquiera de los contenidos de los post)

1voto

BruceET Puntos 7117

En tu caso, creo que la varianza no es el enfoque correcto (véase la Nota al final). Tal vez usted podría considerar el uso de boxplots para "la detección de valores atípicos'.

He aquí un breve ejemplo de uso exponencial de datos, los cuales tienden a tener valores atípicos. (La distribución exponencial es a menudo se utilizan para modelar los tiempos de espera para eventos o vida útil de los componentes electrónicos.) Considere los siguientes datos, generados con R de software estadístico. Veinte observaciones son redondeadas a un lugar y ordenada:

 x = sort(round(rexp(20, .01), 1));  x
 [1]   0.2   0.7   2.6  14.7  28.3  31.1  39.3  45.0  48.7  56.5
[11]  63.0  77.0  77.7  80.2  81.9  96.8 103.6 110.9 157.2 245.1

La muestra estadística se muestra a continuación. A grandes rasgos el cuartil inferior 30.40, la mediana de 59.75, y el cuartil superior 85.62 dividen los datos ordenados en cuatro bloques de cinco observaciones cada uno. El rango intercuartil IQR $= Q_3 - Q_1 = 55.225$ es el ancho de la caja en un boxplot y un importante medida de variabilidad para la detección de valores atípicos.

summary(x);  sd(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.20   30.40   59.75   68.03   85.62  245.10 
[1] 58.4176  # standard deviation
[1] 55.225   # inter-quartile range 

Los extremos de la caja en un boxplot están en el cuartil, la mediana está marcada por una pesada barra dentro de la caja.

boxplot(x, horizontal=T, col="skyblue2")

enter image description here

La observación más grande 245.1 se señaló como una de las demás, y se representan por separado en el boxplot. Se observa como un valor atípico porque es mayor que $Q_3 + 1.5(\text{IQR}) = 168.46.$ (Esto es conocido como el `1.5 IQR criterio". Este criterio es muy popular, pero hay otros.)

Por favor, tenga en cuenta que no hay nada "malo" con la observación 245.1. Como Yo dicho antes, es la naturaleza de la exponencial de datos que tienen valores atípicos. (Probablemente sería mejor mantener el valor atípico al realizar el análisis de datos.)

Para datos como el tuyo, supongo que el hilo que queda observaciones lejos por encima de su red de soporte sería marcado como valores atípicos. (A continuación, usted tendría a considerar para sus datos en qué circunstancias podría haber producido estos valores atípicos, y cómo los valores atípicos deben ser manejados en el análisis de datos.)

La mayoría de las estadísticas libros y muchos sitios web que tienen información adicional acerca de boxplots, los valores atípicos, y cómo considerar los valores atípicos en el análisis de datos.

Nota: Desviaciones (y desviaciones estándar) no funcionan bien para los demás la detección. Si $X_i$ es un valor atípico, entonces, el término se $(X_i - \bar X)^2$ en el la varianza puede ser inusualmente grande. Por lo que medir la distancia de una observación de $\bar X$ en términos de desviaciones estándar puede ser engañoso debido a que el valor atípico en sí tiene un gran efecto en la varianza (y, por lo tanto, la desviación estándar). Por el contrario, los valores atípicos no tienen mucho efecto sobre el tamaño de el rango intercuartil (IQR). Por lo tanto IQR es más eficaz en la detección de valores atípicos.

En el ejemplo, el cambio de la última observación de 245.1 100.0 reduce la desviación estándar de la muestra a partir de 58,42 a 41.96, pero no cambia el IQR.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X