22 votos

Ancho de banda del núcleo: las reglas de Scott frente a las de Silverman

¿Podría alguien explicar en lenguaje sencillo cuál es la diferencia entre las reglas generales de Scott y Silverman para la selección del ancho de banda? En concreto, cuando ¿es uno mejor que el otro? ¿Está relacionado con la distribución subyacente? ¿Número de muestras?

P.D. Me refiero a el código en SciPy .

2 votos

Tampoco quiero saber de python. Sólo quiero ayuda para entender cuándo usar qué regla y por qué.

17voto

AdamSane Puntos 1825

Los comentarios en el código parecen acabar definiendo los dos de forma esencialmente idéntica (aparte de una diferencia relativamente pequeña en la constante).

Ambos son de la forma $cAn^{-1/5}$ , ambos con lo que parece ser el mismo $A$ (estimación de la escala), y $c$ muy cerca de 1 (cerca en relación con la incertidumbre típica en la estimación del ancho de banda óptimo).

[La estimación de binwdith que más habitualmente parece asociarse a Scott es la de su artículo de 1979[1] ( $3.49 s n^{-1/3}$ ) -- por ejemplo, véase Wikipedia - desplazarse un poco hacia abajo - o R's nclass.scott .]

El 1,059 de lo que el código llama la "estimación de Scott" se encuentra en el libro (anterior) de Silverman (véase la página 45 de la referencia de Silverman en su enlace; la derivación de Scott se encuentra en las páginas 130 y 131 del libro al que hacen referencia). Proviene de una estimación de la teoría normal.

El ancho de banda óptimo (en términos de error cuadrático medio integrado) es una función de la segunda derivada cuadrada integrada, y $1.059\sigma$ sale de ese cálculo para una normal, pero en muchos casos es bastante más amplia que la óptima para otras distribuciones.

Le site $A$ es una estimación de $\sigma$ (una especie de estimación reforzada, de manera que se reduce la tendencia a que sea demasiado grande si hay valores atípicos, asimetrías o colas pesadas). Véase la ecuación 3.30 en la página 47, justificada en las páginas 46 y 7.

Por razones similares a las que he sugerido antes, Silverman pasa a sugerir la reducción de 1,059 (de hecho, utiliza en todo momento 1,06, no 1,059, como hace Scott en su libro). Elige un valor reducido que no pierda más del 10% de eficiencia en IMSE en lo normal, que es de donde viene el 0,9.

Por lo tanto, ambos anchos de bandeja se basan en el ancho de bandeja óptimo de IMSE en la normal, uno justo en el óptimo, el otro (aproximadamente un 15% más pequeño, para llegar al 90% de la eficiencia del óptimo en la normal). [Yo llamaría a ambos de ellos estimaciones "Silverman". No tengo ni idea de por qué nombran al de 1,059 para Scott].

En mi opinión, ambos son demasiado grandes. No utilizo histogramas para obtener estimaciones de la densidad que sean óptimas en IMSE. Si eso (obtener estimaciones de la densidad que sean óptimas en el sentido de IMSE) fuera lo que quisiera hacer, no querría usar histogramas para ese propósito.

Los histogramas deberían estar en el lado más ruidoso (dejar que el ojo haga el suavizado necesario). Yo casi siempre duplico (o más) el número de bins por defecto que dan este tipo de reglas. Así que yo no usaría 1,06 o 0,9, sino que tendería a usar algo alrededor de 0,5, tal vez menos en tamaños de muestra realmente grandes.

En realidad hay muy poco que elegir entre ellos, ya que ambos dan muy pocos bins para ser muy útiles a la hora de encontrar lo que está pasando en los datos (en los que, al menos en tamaños de muestra pequeños, ver aquí .

[1]: Scott, D.W. (1979), "Sobre los histogramas óptimos y basados en datos". Biometrika , 66 , 605-610.

1 votos

Según el documento de SciPy aquí La regla de Scott es: n**(-1./(d+4)). Mirando el código, me he dado cuenta de que he entendido mal la regla por ser la misma que "scotts_factor". Tienes razón en que el ancho de banda es demasiado grande. Abriré una nueva pregunta sobre la selección del ancho de banda numérico. Gracias.

0 votos

Cuando se trata de datos univariantes ( $d=1$ ), que es el $n^{-1/5}$ en las fórmulas anteriores. Pero eso no tiene en cuenta la variabilidad de los datos (medida por $A$ arriba), ni un término para la distribución que está tratando de optimizar cerca (lo que llamé $c$ arriba, como el factor 1,059). Es sólo la forma en que el ancho de banda debe cambiar con el tamaño de la muestra, no las constantes por las que debe multiplicarse.

0 votos

@Glen_b-ReinstateMonica ¿Podrías echar un vistazo a la pregunta que he publicado aquí ? Muestro los problemas que puede acarrear la regla de Silverman cuando se utiliza una muestra de gran tamaño. ¿Podría responder con detalle a lo que ocurre?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X