Resumen del Director General
La historia es mucho más larga y más complicada de lo que mucha gente cree.
Resumen ejecutivo
La historia de lo que Tukey llamó box plots está enredada con la de lo que ahora se suele llamar dot o strip plots (docenas de otros nombres) y con las representaciones de la función empírica del cuantil.
Las tramas de cajas en formas ampliamente actuales se conocen mejor a través de la obra de John Wilder Tukey (1970, 1972, 1977).
Pero la idea de mostrar la mediana y los cuartiles como resúmenes básicos - juntos a menudo pero no siempre con puntos que muestren todos los valores - se remonta al menos a los diagramas de dispersión (muchos nombres de variantes) introducidos por el geógrafo Percy Robert Crowe (1933). Estos fueron el alimento básico de los geógrafos y se utilizaron en muchos libros de texto así como en trabajos de investigación desde finales de los años 30 en adelante.
Bibby (1986, págs. 56 y 59) se refirió incluso antes a ideas similares enseñadas por Arthur Lyon Bowley (más tarde Sir Arthur) en sus conferencias sobre 1897 y a su recomendación (Bowley, 1910, p.62; 1952, p.73) de utilizar el mínimo y el máximo y 10, 25, 50, 75 y 90% puntos como base para el resumen gráfico.
Las barras de rango que muestran extremos y cuartiles se atribuyen a menudo a Mary Eleanor Spear (1952) pero en mi lectura menos personas citan a Kenneth W. Haemer (1948). Los artículos de Haemer sobre gráficos estadísticos en el Estadístico americano alrededor de 1950 fueron inventivos y tienen una mordida crítica y siguen valiendo la pena volver a leerlos. (Muchos lectores podrán acceder a ellos a través de jstor.org.) Por el contrario, los libros de Spear (Spear 1969 es un refrito) eran accesibles y sensatos, pero deliberadamente introductorios más que innovadores o académicos.
Las variantes de parcelas de cajas en las que los bigotes se extienden a determinados percentiles son más comunes de lo que mucha gente parece creer. De nuevo, las parcelas equivalentes fueron utilizadas por los geógrafos a partir de los años 30.
Lo que es más original en la versión de Tukey de los gráficos de caja son, en primer lugar, los criterios para identificar los puntos de las colas que deben trazarse por separado e identificarse como merecedores de una consideración detallada - y con la misma frecuencia señalando que una variable debe ser analizada en una escala transformada. Su regla empírica de 1,5 IQR surgió sólo después de mucha experimentación. Ha mutado en algunas manos a una regla dura para borrar puntos de datos, lo cual nunca fue la intención de Tukey. Un nombre contundente y memorable - box plot - no hizo daño en asegurar un impacto mucho más amplio de estas ideas. El diagrama de dispersión, en contraste, es un término bastante aburrido y lúgubre.
La lista de referencias, bastante larga, no pretende ser exhaustiva, posiblemente en contra de las apariencias. El objetivo es sólo proporcionar documentación para algunos precursores y alternativas de la trama de cajas. Las referencias específicas pueden ser útiles para consultas detalladas o si se encuentran muy cerca de su campo. A la inversa, el aprendizaje de las prácticas en otros campos puede ser beneficioso. A menudo se ha subestimado la pericia gráfica -no sólo cartográfica- de los geógrafos.
Más detalles
Las parcelas híbridas de punto-cuadro fueron utilizadas por Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse y Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond y McCullagh (1974), Lewis (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild y Seber (2000), Quinn y Keough (2002), Young et al. (2006) y Hendry y Nielsen (2007) y muchos otros. Véase también Miller (1953, 1964).
Dibujar los bigotes a determinados percentiles, en lugar de a los puntos de datos dentro de tantos IQR de los cuartiles, fue enfatizado por Cleveland (1985), pero anticipado por Matthews (1936) y Grove (1956) que trazaron la gama interoctil, es decir, entre el primer y el séptimo octil, así como la gama y la gama intercuartil. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt y Johnson (2009, 2011) y Davino et al. (2014) mostraron los medios así como mínimo, cuartiles, mediana y máximo. Schmid (1954) mostró gráficos de resumen con la mediana, los cuartiles y los puntos 5 y 95%. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) y Motulsky (2010, 2014, 2018) trazaron los bigotes a 5 y 95% puntos. Morgan y Henrion (1990, pp.221, 241), Spence (2001, p.36), y Gotelli y Ellison (2004, 2013, pp.72, 110, 213, 416) trazaron los bigotes a 10 y 90% puntos. Harris (1999) mostró ejemplos tanto de 5 y 95% como de 10 y 90% puntos. Altman (1991, pp.34, 63) y Greenacre (2016) trazaron bigotes hasta 2,5% y 97,5% puntos. Reimann y otros (2008, pp.46-47) trazaron bigotes de 5% y 95% y 2% y 98% puntos.
Parzen (1979a, 1979b, 1982) hibridó las parcelas de caja y de cuantiles como parcelas de caja de cuantiles. Véase también (por ejemplo) Shera (1991), Militký y Meloun (1993), Meloun y Militký (1994). Nótese, sin embargo, que la parcela de caja de cuantiles de Keen (2010) es sólo una parcela de caja con bigotes que se extiende hasta los extremos. Por el contrario, los gráficos de caja del cuantil de JMP son evidentemente gráficos de caja con marca el 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: ver Sall et al. (2014, págs. 143 a 4).
Aquí hay algunas notas sobre las variantes de las parcelas de los cuantiles.
(A) El parcela de caja-porcentaje de Esty y Banfield (2003) traza la misma información de manera diferente, trazando los datos como líneas continuas y produciendo una visualización simétrica en la que el eje vertical muestra los cuantiles y el eje horizontal muestra la posición no trazada $p$ pero ambos min( $p, 1 - p$ ) y su imagen de espejo $-$ min( $p, 1 - p$ ). Un detalle menor: en su papel las posiciones se describen erróneamente como "percentiles". Ver también Martínez et al. (2011, 2017), lo que perpetúa esa confusión.
La idea de trazar min( $p, 1 - p$ ) (o su equivalente porcentual) aparece de forma independiente en (B) "parcelas de montaña" (Krouwer 1992; Monti 1995; Krouwer y Monti 1995; Goldstein 1996) y en (C) parcelas de la "función de distribución empírica invertida" (Huh 1995). Véase también Xue y Titterington (2011) para un análisis detallado del plegado de una función de distribución en cualquier cúmulo.
De la literatura que yo he visto, parece que ninguno de estos hilos - los diagramas de caja de cuantiles o las variantes posteriores (A) (B) (C) - se citan entre sí.
A partir del 3 de octubre de 2018, los detalles de algunas referencias deben ser suministrados en la próxima edición.
Altman, D.G. 1991. Estadísticas prácticas en la investigación médica. Londres: Chapman y Hall.
Bentley, J.L. 1985. Programación de perlas: Selección. Comunicaciones de la ACM 28: 1121-1127.
Bentley, J.L. 1988. Más perlas de programación: Confesiones de un Codificador. Lectura, MA: Addison-Wesley.
Bibby, J. 1986. Notas para una historia de las estadísticas de la enseñanza. Edimburgo: John Bibby (Libros).
Bowley, A.L. 1910. Un manual elemental de estadística. Londres: Macdonald y Evans. (séptima edición 1952)
Cleveland, W.S. 1985. Elementos de la gráfica de datos. Monterey, CA: Wadsworth.
Crowe, P.R. 1933. El análisis de la probabilidad de lluvia: Un método gráfico y su aplicación a los datos europeos. Revista Geográfica Escocesa 49: 73-91.
Crowe, P.R. 1936. El régimen de lluvias de las Llanuras Occidentales. Revisión geográfica 26: 463-484.
Davis, J.C. 2002. Estadísticas y análisis de datos en geología. Nueva York: John Wiley.
Dickinson, G.C. 1963. La cartografía estadística y la presentación de las estadísticas. Londres: Edward Arnold. (segunda edición 1973)
Dury, G.H. 1963. Las Midlands Orientales y el Pico. Londres: Thomas Nelson.
Farmer, B.H. 1956. Lluvia y suministro de agua en la Zona Seca de Ceilán. En Steel, R.W. y C.A. Fisher (eds) Ensayos geográficos sobre las tierras tropicales británicas. Londres: George Philip, 227-268.
Gregory, S. 1963. Los métodos estadísticos y el geógrafo. Londres: Longmans. (ediciones posteriores 1968, 1973, 1978; editor posterior de Longman)
Grove, A.T. 1956. Erosión del suelo en Nigeria. En Steel, R.W. y C.A. Fisher (eds) Ensayos geográficos sobre las tierras tropicales británicas. Londres: George Philip, 79-111.
Haemer, K.W. 1948. Gráficos de barras de rango. Estadístico americano 2(2): 23.
Hendry, D.F. y B. Nielsen. 2007. Modelado econométrico: Un enfoque de probabilidad. Princeton, NJ: Princeton University Press.
Hogg, W.H. 1948. Diagramas de dispersión de las lluvias: una discusión de sus ventajas y desventajas. Geografía 33: 31-37.
Ibrekk, H. y M.G. Morgan. 1987. Comunicación gráfica de cantidades inciertas a personas no técnicas. Análisis de riesgos 7: 519-529.
Johnson, B.L.C. 1975. Bangladesh. Londres: Heinemann Educational.
Keen, K.J. 2010. Gráficos para estadísticas y análisis de datos con R. Boca Ratón, FL: CRC Press. (2ª edición 2018)
Lewis, C.R. 1975. The analysis of changes in urban status: a case study in Mid-Wales and the en la frontera del medio de Gales. Transacciones del Instituto de Geógrafos Británicos 64: 49-65.
Martínez, W.L., A.R. Martínez y J.L. Solka. 2011. Análisis exploratorio de datos con MATLAB. Boca Ratón, FL: CRC Press.
Matthews, H.A. 1936. Una nueva visión de algunas lluvias conocidas de la India. Revista Geográfica Escocesa 52: 84-97.
Matthews, J.A. 1981. Enfoques cuantitativos y estadísticos de la geografía: Un manual práctico. Oxford: Pergamon.
Meloun, M. y J. Militký. 1994. Computer-assisted data treatment in analytical chemometrics. I. Análisis exploratorio de datos univariantes. Papeles químicos 48: 151-157.
Militký, J. y M. Meloun. 1993. Algunas ayudas gráficas para el análisis de datos exploratorios univariantes. Analytica Chimica Acta 277: 215-221.
Miller, A.A. 1953. La piel de la Tierra. Londres: Methuen. (2ª edición 1964)
Monkhouse, F.J. y H.R. Wilkinson. 1952. Mapas y diagramas: Su compilación y construcción. Londres: Methuen. (ediciones posteriores 1963, 1971)
Morgan, M.G. y M. Henrion. 1990. Incertidumbre: Una guía para abordar la incertidumbre en el análisis cuantitativo de riesgos y políticas. Cambridge: Cambridge University Press.
Myatt, G.J. 2007. Haciendo sentido de los datos: Una guía práctica para el análisis y la extracción de datos de exploración. Hoboken, NJ: John Wiley.
Myatt, G.J. y Johnson, W.P. 2009. Making Sense of Data II: A Practical Guide to Data Visualization, Advanced Data Mining Methods, and Applications. Hoboken, NJ: John Wiley.
Myatt, G.J. y Johnson, W.P. 2011. Making Sense of Data III: Una guía práctica para diseñar visualizaciones interactivas de datos. Hoboken, NJ: John Wiley.
Ottaway, B. 1973. Diagramas de dispersión: un nuevo enfoque para la visualización de las fechas del carbono-14. Arqueometría 15: 5-12.
Parzen, E. 1979a. Nonparametric statistical data modeling. Journal, Asociación Americana de Estadística 74: 105-121.
Parzen, E. 1979b. Una perspectiva de la función de densidad-cuantitativa en la estimación robusta. En Launer, R.L. y G.N. Wilkinson (editores) Robustez en las estadísticas. Nueva York: Academic Press, 237-258.
Parzen, E. 1982. Data modeling using quantile and density-quantile functions. En Tiago de Oliveira, J. y Epstein, B. (eds) Algunos avances recientes en las estadísticas. Londres: Prensa Académica, 23-52.
Quinn, G.P. y M.J. Keough. 2002. Diseño experimental y análisis de datos para biólogos. Cambridge: Cambridge University Press.
Reimann, C., P. Filzmoser, R.G. Garrett y R. Dutter. 2008. Explicación del análisis de datos estadísticos: Estadísticas ambientales aplicadas con R. Chichester: John Wiley.
Sall, J., A. Lehman, M. Stephens y L. Creighton. 2014. Estadísticas de inicio del JMP: Una guía de estadísticas y análisis de datos utilizando el JMP. Cary, NC: Instituto SAS.
Shera, D.M. 1991. Algunos usos de las gráficas de cuantiles para mejorar la presentación de los datos. Informática y Estadística 23: 50-53.
Spear, M.E. 1952. Estadísticas de gráficos. Nueva York: McGraw-Hill.
Spear, M.E. 1969. Técnicas prácticas de cartografía. Nueva York: McGraw-Hill.
Tukey, J.W. 1970.
Análisis exploratorio de datos. Edición preliminar limitada. Volumen I. Lectura, MA: Addison-Wesley.
Tukey, J.W. 1972. Algunos gráficos y semigráficos. En Bancroft, T.A. y Brown, S.A. (eds) Documentos estadísticos en honor a George W. Snedecor. Ames, Asuntos Internos: Iowa State University Press, 293-316. (también accesible en http://www.edwardtufte.com/tufte/tukey )
Tukey, J.W. 1977. Análisis exploratorio de datos. Lectura, MA: Addison-Wesley.
Wild, C.J. y G.A.F. Seber. 2000. Encuentros casuales: Un primer curso de análisis e inferencia de datos. Nueva York: John Wiley.