14 votos

Deducir la varianza a partir del boxplot

Me preguntaba cómo deducir la varianza de una variable utilizando un boxplot. ¿Es posible al menos deducir si dos variables tienen la misma varianza observando su boxplot?

1 votos

Recientemente me topé con este artículo sobre un tema similar. Espero que te sirva de ayuda.

19voto

Nick Stauner Puntos 8220

No sin un montón de suposiciones estrictas, no. Si asumieras que la respuesta es sí (en lugar de preguntar, por lo que te aplaudo), apuesto a que podría engañarte con este (contra)ejemplo:

set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

Se parece bastante, ¿verdad? Sin embargo, $\sigma^2_1=1,\sigma^2_2=1.96$ ¡!

Por si no queda claro en el código, la población 2 es:

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

Y no, no se puede deducir que esta población sea normal sólo porque sea exactamente simétrica. Aquí hay un gráfico Q-Q de la población 2 :

A mí no me parece normal.

Edición - Respuesta a su comentario:

Desviación es una estadística numérica. Si las varianzas de dos distribuciones son literalmente iguales, eso es prácticamente todo lo que hay que decir al respecto. Si dos distribuciones son exactamente normal , de nuevo, hay una definición matemática ambos encajarán. Si dos distribuciones no son exactamente normales o no tienen la misma varianza, no deberías decir lo contrario. Si quieres decir que son aproximadamente igual o normal, probablemente deberías definir "suficientemente aproximado" de una manera que se adapte a tus propósitos, que no has especificado aquí. La sensibilidad a las diferencias de distribución varía mucho entre los análisis que suelen motivar preguntas como la suya. Por ejemplo, un análisis paramétrico $t$ -prueba asume distribuciones normales con igual varianza (aunque es bastante robusto a las violaciones de esta última dada la igualdad de los tamaños de las muestras ), por lo que no recomendaría esa prueba para comparar mi población 2 a la población 1 (la distribución normal).

3 votos

Un buen ejemplo. Nick está usando R. (Hasta que todo el mundo use R, es una buena práctica mencionarlo).

0 votos

No puedo evitar pensar que sería un buen día para la ciencia en general :)

0 votos

Tengo un largo ensayo al respecto, pero por alguna razón no cabe en el espacio disponible.

11voto

Nick Cox Puntos 22819

Esto ha sido bien contestado. Estos comentarios adicionales son un poco demasiado largos (ACTUALIZACIÓN: ahora mucho más largos) para ir como comentarios.

Estrictamente, todo lo que se puede leer de un boxplot sobre la variabilidad de una distribución es su rango intercuartil (la longitud o altura de la caja) y el rango (la longitud o altura entre los extremos de la pantalla).

Como aproximación, es probable que los gráficos de caja que parecen idénticos tengan varianzas muy similares, pero cuidado. Los gráficos de caja con posiciones de caja o colas muy diferentes (o ambas) tienen muy pocas probabilidades de tener varianzas similares, pero no es imposible. Pero incluso si los gráficos de caja tienen un aspecto idéntico, no se obtiene ninguna información en un gráfico de caja simple o de vainilla sobre la variabilidad dentro de la caja o, de hecho, la variabilidad dentro de los bigotes (las líneas que a menudo se muestran entre la caja y los puntos de datos dentro de 1,5 IQR del cuartil más cercano). N.B. Existen varias variantes de gráficos de caja; los autores no suelen documentar las reglas precisas utilizadas por su software.

La popularidad de la trama de cajas tiene su precio. Los gráficos de caja pueden ser muy útiles para mostrar las características brutas de muchos grupos o variables (digamos 20 o 30, a veces incluso más). En mi opinión, su uso habitual para comparar, por ejemplo, dos o tres grupos es excesivo, ya que otros gráficos pueden mostrar muchos más detalles de forma inteligible en el mismo espacio. Naturalmente, esto es ampliamente apreciado, si no universalmente, y varias mejoras del gráfico de caja muestran más detalles.

Un trabajo serio con las desviaciones requiere el acceso a los datos originales.

Esto es a grandes rasgos, y se podrían añadir más detalles. Por ejemplo, la posición de la mediana dentro de la caja a veces da un poco más de información.

ACTUALIZACIÓN

Supongo que mucha más gente está interesada en los usos (y limitaciones) de los gráficos de caja en general que en la cuestión específica de inferir la varianza a partir de un gráfico de caja (a la que la respuesta corta es "No se puede, excepto indirectamente, aproximadamente, y a veces"), así que añadiré más comentarios sobre las alternativas, tal y como me ha sugerido @Christian Sauer.

  • Los histogramas utilizados con sensatez suelen seguir siendo competitivos. El texto introductorio clásico moderno de Freedman, Pisani y Purves los utiliza en todo momento.

  • Lo que se conoce como gráficos de puntos o de franjas (y con muchos otros nombres) es fácil de entender. Los puntos idénticos pueden apilarse, después de un binning si se desea. Se puede añadir la mediana y los cuartiles, o la media y los intervalos de confianza, a gusto del usuario.

  • Los gráficos cuantílicos son, al parecer, un gusto adquirido, pero en varios sentidos son los más versátiles de todos. Incluyo aquí gráficos de valores ordenados de nuevo la probabilidad acumulada (posición de trazado), así como los gráficos de cuantiles que serían rectos si los datos fueran cualquier distribución "de marca" que se considere (normal, exponencial, gamma, lo que sea). (Agradecimientos a @Scortchi por la referencia a la "marca" tal y como la utiliza C.J. Geyer).

Pero no es posible hacer una lista exhaustiva. (Añadiré, por ejemplo, que muy ocasionalmente, una representación de tallo y hoja es exactamente la adecuada para ver detalles importantes en los datos, como cuando la preferencia de dígitos es rampante). El principio clave es que los mejores tipos de gráficos de distribución permiten lo aparentemente imposible, la percepción de estructura fina en los datos que podrían ser interesantes o importantes (modalidad, granularidad, valores atípicos, etc.), así como estructura gruesa (nivel, dispersión, asimetría, etc.).

Los gráficos de caja no son igual de buenos para mostrar todos los tipos de estructura. No pueden serlo, y no se pretendía que lo fueran. Vale la pena señalar que J.W. Tukey en Análisis exploratorio de datos Reading, MA: Addison-Wesley (1977) dio un ejemplo de datos bimodales de Rayleigh que un gráfico de caja oscurece completamente la estructura principal. Como gran estadístico, era muy consciente de que los gráficos de caja no siempre eran la respuesta.

Una práctica extraña, muy extendida en los textos introductorios, es discutir el ANOVA mientras se invita a los lectores a mirar los gráficos de caja, que muestran las medianas y los cuartiles, no las medias y las varianzas (más bien las DE). Naturalmente, mirar los datos es mucho mejor que no mirarlos, pero incluso así, una representación gráfica más apropiada es posiblemente algún gráfico de los datos brutos con las medias ajustadas +/- algún múltiplo apropiado de SE.

0 votos

Nick, ¿podrías describir las alternativas a los gráficos de caja para un número reducido de variables?

0 votos

@ChristianSauer Gracias por el aviso: por favor, vea la actualización.

0 votos

Gracias por la actualización tan agradable. Me gusta especialmente su último párrafo, me parece que los gráficos de caja junto con ANOVA y / o regresión bastante confuso - es como comparar manzanas y naranjas.

7voto

Rufo Puntos 319

Un enfoque ingenuo:

En una distribución normal, los cuantiles del 25% y del 75% se sitúan en $0.67\cdot\sigma$ distancia del centro. Eso da que la densidad centrada al 50% cubre el doble de esta distancia ( $1.35\cdot \sigma$ ). En un boxplot, el rango intercuartil (IQR, la distancia desde la parte inferior de la caja a la superior) cubre el 50% de la cantidad centrada de la muestra.

Si usted hace la suposición de que su población sigue una distribución Normal (lo que a veces es una GRAN suposición, no tan trivial), entonces la desviación estándar de su población podría estimarse aproximadamente a partir de la ecuación $IQR=1.35\cdot\sigma$ Es decir $\sigma=0.74\cdot IQR$ .

Y sobre la comparación de varianzas mediante boxplot: cajas más anchas significan varianzas más grandes, pero eso te da una comprensión exploratoria, y tienes que tener en cuenta también los bigotes y los valores atípicos. Para la confirmación se debe utilizar el contraste de hipótesis.

0 votos

Para comparar la varianza todavía tenemos que suponer que ambas distribuciones son normales? ¿Podemos deducir que la variable es normal si la caja es simétrica respecto al centro?

1 votos

Suscribo todo lo que dice @Nick_Stauner. Lo que expuse fue asumir que sus poblaciones son Normales, lo que requiere, entre otros pero no solo, simetría y curtosis = 0. Este supuesto se viola con frecuencia.

2 votos

La curtosis se define de varias maneras. Según otra definición (más sencilla), una normal (gaussiana) tiene una curtosis de 3. Debe comprobar qué definición utiliza su software si la calcula en la práctica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X