Los comentarios en el código parecen acabar definiendo los dos de forma esencialmente idéntica (aparte de una diferencia relativamente pequeña en la constante).
Ambos son de la forma $cAn^{-1/5}$ , ambos con lo que parece ser el mismo $A$ (estimación de la escala), y $c$ muy cerca de 1 (cerca en relación con la incertidumbre típica en la estimación del ancho de banda óptimo).
[La estimación de binwdith que más habitualmente parece asociarse a Scott es la de su artículo de 1979[1] ( $3.49 s n^{-1/3}$ ) -- por ejemplo, véase Wikipedia - desplazarse un poco hacia abajo - o R's nclass.scott
.]
El 1,059 de lo que el código llama la "estimación de Scott" se encuentra en el libro (anterior) de Silverman (véase la página 45 de la referencia de Silverman en su enlace; la derivación de Scott se encuentra en las páginas 130 y 131 del libro al que hacen referencia). Proviene de una estimación de la teoría normal.
El ancho de banda óptimo (en términos de error cuadrático medio integrado) es una función de la segunda derivada cuadrada integrada, y $1.059\sigma$ sale de ese cálculo para una normal, pero en muchos casos es bastante más amplia que la óptima para otras distribuciones.
Le site $A$ es una estimación de $\sigma$ (una especie de estimación reforzada, de manera que se reduce la tendencia a que sea demasiado grande si hay valores atípicos, asimetrías o colas pesadas). Véase la ecuación 3.30 en la página 47, justificada en las páginas 46 y 7.
Por razones similares a las que he sugerido antes, Silverman pasa a sugerir la reducción de 1,059 (de hecho, utiliza en todo momento 1,06, no 1,059, como hace Scott en su libro). Elige un valor reducido que no pierda más del 10% de eficiencia en IMSE en lo normal, que es de donde viene el 0,9.
Por lo tanto, ambos anchos de bandeja se basan en el ancho de bandeja óptimo de IMSE en la normal, uno justo en el óptimo, el otro (aproximadamente un 15% más pequeño, para llegar al 90% de la eficiencia del óptimo en la normal). [Yo llamaría a ambos de ellos estimaciones "Silverman". No tengo ni idea de por qué nombran al de 1,059 para Scott].
En mi opinión, ambos son demasiado grandes. No utilizo histogramas para obtener estimaciones de la densidad que sean óptimas en IMSE. Si eso (obtener estimaciones de la densidad que sean óptimas en el sentido de IMSE) fuera lo que quisiera hacer, no querría usar histogramas para ese propósito.
Los histogramas deberían estar en el lado más ruidoso (dejar que el ojo haga el suavizado necesario). Yo casi siempre duplico (o más) el número de bins por defecto que dan este tipo de reglas. Así que yo no usaría 1,06 o 0,9, sino que tendería a usar algo alrededor de 0,5, tal vez menos en tamaños de muestra realmente grandes.
En realidad hay muy poco que elegir entre ellos, ya que ambos dan muy pocos bins para ser muy útiles a la hora de encontrar lo que está pasando en los datos (en los que, al menos en tamaños de muestra pequeños, ver aquí .
[1]: Scott, D.W. (1979), "Sobre los histogramas óptimos y basados en datos". Biometrika , 66 , 605-610.
2 votos
Tampoco quiero saber de python. Sólo quiero ayuda para entender cuándo usar qué regla y por qué.