29 votos

¿Qué aspectos de la "Iris" conjunto de datos hacen que sea tan exitoso como un ejemplo de enseñanza/conjunto de datos de prueba

El "Iris" conjunto de datos es probablemente familiar para la mayoría de las personas aquí - es uno de los canónica de la prueba de conjuntos de datos y un ir-a ejemplo de conjunto de datos para todo, desde la visualización de datos para el aprendizaje de máquina. Por ejemplo, todo el mundo en esta pregunta se terminó usando para una discusión de diagramas de dispersión separados por tratamiento.

Lo que hace que el Iris conjunto de datos tan útiles? Sólo que estaba allí en primer lugar? Si alguien estaba tratando de crear un ejemplo útil/conjunto de datos de prueba, ¿qué lecciones se podrían tomar distancia de ella?

46voto

Nick Cox Puntos 22819

El Iris conjunto de datos es merecidamente ampliamente usados en la estadística de la ciencia, especialmente para ilustrar varios de los problemas en gráficos estadísticos, las estadísticas multivariantes y el aprendizaje de máquina.

  • Contiene 150 observaciones, es pequeño, pero no trivial.

  • La tarea que se plantea de discriminar entre las tres especies de Iris a partir de las mediciones de sus pétalos y sépalos es simple pero desafiante.

  • Los datos son datos reales, pero aparentemente de buena calidad. En principio y en la práctica, la prueba de conjuntos de datos pueden ser sintético y que podría ser necesario o útil para hacer un punto. Sin embargo, algunas personas se oponen a los datos reales.

  • Los datos fueron utilizados por el célebre estadístico Británico Ronald Fisher en 1936. (Más tarde recibió el título de caballero y se convirtió en Sir Ronald.) Al menos algunos profesores, como la idea de un conjunto de datos con un enlace a alguien tan conocido dentro del campo. Los datos fueron originalmente publicado por estadísticamente la mente botánico Edgar S. Anderson, pero que a principios de origen no disminuye la asociación.

  • El uso de un par de famosos conjuntos de datos es una de las tradiciones que de la mano hacia abajo, como diciendo a cada nueva generación que el Estudiante trabajó para una Guinness o que muchos famosos de los estadísticos se cayó el uno con el otro. Eso puede sonar como la inercia, pero en la comparación entre los métodos antiguos y nuevos, y en la evaluación de cualquier método, es a menudo considerada útil para probar en el conocimiento de los conjuntos de datos, manteniendo una continuidad en la forma de evaluar los métodos.

  • Por último, pero no menos importante, el Iris conjunto de datos puede ser agradablemente junto con fotos de las flores de que se trate, como, por ejemplo, de los útiles entrada de la Wikipedia sobre el conjunto de datos.

Nota. Pon tu granito de arena para la corrección citando las plantas cuidadosamente. Iris setosa, Iris versicolor y Iris virginica son tres especies (no variedades, como en algunas de las estadísticas de cuentas); su binominals debe ser presentado en cursiva, como en este caso; y el Iris como nombre de género y los otros nombres que indica especie en particular debe comenzar con mayúsculas y minúsculas respectivamente.

9voto

Assembler Puntos 545

El conjunto de datos es grande y lo suficientemente interesante como para no ser trivial, pero lo suficientemente pequeño como para "caber en su bolsillo", y no frenar la experimentación con él.

Creo que un aspecto clave es que también enseña acerca de la sobre-ajuste. No hay suficientes columnas para dar una puntuación perfecta: vemos esto de inmediato cuando nos fijamos en los diagramas de dispersión, y se superponen y ejecutar en cada uno de los otros. Por lo que cualquier máquina enfoque de aprendizaje que obtiene una puntuación perfecta puede ser considerado sospechoso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X