16 votos

Biblioteca Java de código abierto para la estadística al nivel ofrecido por un curso de estadística de posgrado

Estoy tomando un curso de posgrado en Estadística Aplicada que utiliza el siguiente libro de texto (para que te hagas una idea del nivel del material que se cubre): Conceptos y métodos estadísticos por G. K. Bhattacharyya y R. A. Johnson.

El profesor nos exige que utilicemos SAS para los trabajos de casa.

Mi pregunta es la siguiente: ¿hay alguna biblioteca de Java que se pueda utilizar en lugar de SAS para los problemas típicos de este tipo de clases?

Actualmente estoy tratando de arreglármelas con Apache Math Commons y aunque estoy impresionado con la biblioteca (su facilidad de uso y comprensibilidad) parece carecer incluso de cosas simples como la capacidad de dibujar histogramas (pensando en combinarla con una biblioteca de gráficos).

He mirado el Colt, pero mi interés inicial se apagó bastante rápido.

Apreciaría cualquier aportación - y he mirado preguntas similares en Stackoverflow pero no he encontrado nada convincente.

NOTA: Conozco R, SciPy y Octave y las librerías de java que hacen llamadas a ellos -- estoy buscando una librería nativa de Java o un conjunto de librerías que puedan proporcionar conjuntamente las características que estoy buscando.

NOTA: Los temas cubiertos en una clase de este tipo suelen incluir: pruebas de una y dos muestras e intervalos de confianza para medias y medianas, estadística descriptiva, pruebas de bondad de ajuste, ANOVA de una y dos vías, inferencia simultánea, pruebas de varianzas, análisis de regresión y análisis de datos categóricos.

11voto

Xenph Yan Puntos 20883

Cuando me veo obligado a utilizar java para las estadísticas básicas, apache commons math es el camino a seguir. Para los gráficos, uso y recomiendo JFreeChart . Este último está muy extendido, por lo que stackoverflow tiene incluso un etiqueta poblada para ello .

Editar

Si uno busca una suite, entonces tal vez Deducer es una opción. La interfaz gráfica de usuario se basa en JGR, mientras que las partes estadísticas se llaman en R. Parece ser extensible tanto mediante R y java . Uno podría, por ejemplo, omitir las llamadas al Rengine y llamar a las bibliotecas java referenciadas en su lugar. Pero admito que aún no lo he probado.

Por lo que he entendido del OP, lo óptimo sería algo así como Rapidminer para las estadísticas Rapidminer es un marco de trabajo puramente java que admite el acceso a la interfaz gráfica de usuario (incluidas las visualizaciones), el uso como biblioteca y el desarrollo de plugins personalizados. Que yo sepa, algo así para la estadística no existe. Yo sí no se recomienda Rapidminer para esa tarea en particular porque, hasta donde yo sé, sólo incluye las pruebas estadísticas más básicas. Las visualizaciones se han ampliado últimamente, pero no puedo estimar lo personalizables que son ahora.

4voto

Jörgen Lundberg Puntos 753

Los 5 ciclos $C_5$ es un gran contraejemplo. Es el grafo imperfecto más pequeño, es autocomplementario, tiene número cromático $>\Delta$ no tiene ningún conjunto estable que reúna todas las camarillas máximas y, sin embargo, satisface $\omega = \frac{2}{3}(\Delta+1)$ tiene un número cromático $> \frac 1 2 (\Delta+\omega+1)$ , lo que significa que Reed's $\chi, \omega, \Delta$ la conjetura es de algún modo ajustada.

Y cuando se amplía cada vértice en una camarilla o conjunto estable de tamaño $k$ La diversión continúa. Para $k=3$ esto te da el contraejemplo de Catlin a la Conjetura de Hajos.

3voto

geni Puntos 91

Similar a sugerencia de steffen de RapidMiner, podría considerar Weka . Sin embargo, puede estar más orientado al aprendizaje automático de lo que esperas. Tiene muchos algoritmos para tareas como la agrupación, la clasificación y la regresión. Weka tiene una interfaz gráfica de usuario, pero también se puede utilizar como una biblioteca de software. He visto histogramas en la GUI, pero no estoy seguro de si es fácil reutilizarlos a través de la biblioteca o no.

2voto

Remi Puntos 11

DataMelt tiene muchas bibliotecas estadísticas de Java para casi cualquier tema. Se puede usar usando Jython como se defiende en el sitio web, pero yo lo uso con Java y Groovy.

Puedo decir más: el proyecto DataMelt abarca los siguientes temas estadísticos:

  • Números aleatorios
  • Distribuciones discretas y continuas más populares
  • Análisis estadístico descriptivo
  • Ajuste de datos (lineal y no lineal)
  • Diversas pruebas estadísticas
  • Histogramas en 2D y 3D

He aquí un ejemplo de regresión no lineal que utiliza el enfoque de la log-verosimilitud para ajustar los datos con errores:

enter image description here

El paquete es gratuito.

1voto

David Nehme Puntos 11564

Prueba con http://www.roguewave.com/Portals/0/products/imsl-numerical-libraries/java-library/docs/5.0.1/api/overview-summary.html

Está bien documentado y ofrece muchas funciones estadísticas y matemáticas útiles. Pero lamentablemente no es de código abierto. Así que si eso no te molesta, entonces la biblioteca debería estar bien.

Sin embargo, no sé si proporciona una salida gráfica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X