Tengo una distribución bimodal, y si se traza con Mathematica se ve así:
Ahora, el valor más bajo de los datos reales es 8196 y 690720, pero como se ve en el gráfico, Mathematica deja que el rango de datos vaya de 0 a 744572. ¿Está Mathematica eligiendo un mal rango de datos para el histograma?
¿Cuál es, en general, una buena opción para definir el centro de los bins y el rango de datos, de manera que pueda ajustar una distribución a través del histograma?
Mi enfoque sería:
(1) Calculate (bin width) = (Max-Min)/(number of bins)
[I'm aware that there are different rules how to choose the optimal number of
bins depending on the underlying distribution, let's just assume this is 12]
(2) then I have 12 equal bins, starting from 8196 and ending at 690720, each having a width of 56877
(3) The first bin goes then from 8196 to 65073=8196+56877 and so on
(4) As the center of the bin I define the middle between 8196 and 65073 which is 36624.5 and I position my first bin there.
(5) Then I get 12 data pairs of bin center position and number of observations and I can fit a bimodal distribution through it
¿Estoy cometiendo un error si hago eso, o cuál es el razonamiento detrás de la elección de Mathematica de que el rango del histograma exceda el rango real de los datos?
Edición: He subido los datos en bruto aquí: datos en bruto
Edit2: Para aclarar la misteriosa frecuencia de 17 que fue señalada por Stephan: Los datos son un mapa de fotoluminiscencia confocal donde un láser escanea un emisor y se ve así: El láser escanea fila por fila, por lo que en medio de cada fila se enciende el emisor, lo que explica la frecuencia de 17 cuando se trazan los datos brutos, ya que se originan en una sola lista.