Al trazar dos estimaciones de desitiy del núcleo en el mismo marco
plot(density(all4[,3],kernel="epanechnikov"),col='red',ylim=c(0,0.4),xlim=c(-50,50))
lines(density(all2[,3],kernel="epanechnikov"),col="blue",ylim=c(0,0.4),xlim=c(-50,50))
el resultado es el siguiente:
lo cual es bastante extraño ya que el área bajo ambas parcelas debería ser la unidad. Los datos relacionados con la curva roja tienen un valor atípico (su máximo es 702,6).
> summary(all4[,3])
Min. 1st Qu. Median Mean 3rd Qu. Max.
-22.3100 -4.0940 -0.4151 -0.1533 3.4880 702.6000
> summary(all2[,3])
Min. 1st Qu. Median Mean 3rd Qu. Max.
-23.520 -4.041 -0.367 -0.109 3.533 67.780
Tras eliminar el valor atípico, las curvas coinciden bastante bien
a4 = sort(all4[,3])
a2 = sort(all2[,3])
a4 = a4[6:999995]
a2 = a2[6:999995]
plot(density(a4,kernel="epanechnikov"),col='red',ylim=c(0,0.2),xlim=c(-50,50),lwd=3)
lines(density(a2,kernel="epanechnikov"),col="blue",ylim=c(0,0.2),xlim=c(-50,50))
> summary(a4)
Min. 1st Qu. Median Mean 3rd Qu. Max.
-21.0200 -4.0940 -0.4151 -0.1541 3.4880 39.6700
> summary(a2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
-21.9200 -4.0410 -0.3670 -0.1091 3.5330 32.2900
Estoy confundido, ya que el valor atípico debería ROBAR la masa de probabilidad del cuerpo de la distribución. Pero la curva roja de la primera imagen parece estar inflada. Además, como ambas curvas de densidad están en las mismas escalas, el área bajo ambas curvas debería ser la misma, también en el primer gráfico. ¿Dónde está mi error?
EDIT: Siguiendo las recomendaciones de Momos he integrado sobre las densidades. ¡Efectivamente, el resultado para el raro es mucho más allá de la unidad!
library(sfsmisc)
dd1 = density(all4[,3],kernel="epanechnikov")
dd2 = density(all2[,3],kernel="epanechnikov")
integrate.xy(dd1$x,dd1$y)
[1] 1.490016
integrate.xy(dd2$x,dd2$y)
[1] 0.9977962