19 votos

¿Cuáles son las buenas conjuntos de datos para ilustrar determinados aspectos de análisis estadístico?

Me doy cuenta de que esto es subjetivo, pero pensé que sería bueno hablar de nuestros favoritos de los conjuntos de datos y lo que cree que los hace interesantes. Hay una gran cantidad de datos, y lo que con todas las APIs (por ejemplo, Datamob), junto con los clásicos conjuntos de datos (por ejemplo, la R de datos), creo que esto podría tener algunos muy interesantes las respuestas.

Por ejemplo, siempre me ha gustado conjuntos de datos como el "Boston de Vivienda" conjunto de datos (lamentable implicaciones a pesar de) y "mtcars" por su versatilidad. Desde un punto de vista pedagógico, se puede demostrar que el fondo de una amplia variedad de técnicas estadísticas; y Anderson/Fisher iris conjunto de datos siempre tendrá un lugar en mi corazón.

Los pensamientos?

13voto

DavLink Puntos 101

El bajo peso al nacer de estudio

Este es uno de los conjuntos de datos de Hosmer y Lemeshow del libro de texto en Aplicó la Regresión Logística (2000, Wiley, 2da ed.). El objetivo de este estudio prospectivo fue identificar los factores de riesgo asociados con dar a luz a un peso bajo de nacimiento (que pesan menos de 2.500 gramos). Los datos fueron recolectados en 189 mujeres, de las cuales 59 se tuvieron bajo peso al nacer de los bebés y 130 de los cuales tenían peso normal al nacer, los bebés. Cuatro de las variables que se consideraron de importancia fueron la edad, el peso del sujeto en su último período menstrual, la raza y el número de visitas al médico durante el primer trimestre del embarazo.

Está disponible en R data(birthwt, package="MASS") o en Stata con webuse lbw. Una versión de texto que aparece aquí: lowbwt.dat (descripción). De la nota, hay varias versiones de este conjunto de datos debido a que se amplió a un estudio caso-control (1-1 o 1-3, emparejados en edad), como se ilustra por Hosmer y Lemeshow en ALR capítulo 7.

Yo solía enseñar cursos de iniciación basado en este conjunto de datos por los siguientes motivos:

  • Es interesante desde una perspectiva histórica y perspectiva epidemiológica (los datos fueron recogidos en 1986); no se necesitan conocimientos previos en la medicina o de la estadística es necesaria para comprender las ideas principales y qué preguntas se pueden plantear a partir de ese estudio.
  • Varias variables de tipos mixtos (continua, ordinal y nominal) que hace que sea fácil de presentar básicos de las pruebas de asociación (t-test, ANOVA, $\chi^2$-prueba durante dos tablas, odds-ratio, Cochrane y Armitage prueba de tendencia, etc.). Además, el peso al nacer está disponible como una medida continua así como un indicador binario (por encima o por debajo de 2.5 kg): podemos iniciar la construcción de sencillos modelos lineales, seguido por el de regresión múltiple (con predictores de interés seleccionada desde antes del análisis exploratorio) y, a continuación, cambie a la GLM (regresión logística), posiblemente un debate sobre la elección de un corte.
  • Permite discutir las diferentes perspectivas de modelado (explicativo o predictivo enfoques), y la implicación del esquema de muestreo cuando el desarrollo de los modelos de estratificación/coincide casos).

Otros puntos que se pueden destacar, dependiendo de la audiencia y el nivel de experiencia con el software estadístico, o de las estadísticas en general.

  1. Como para el conjunto de datos disponibles en R, los predictores categóricos se evalúan como enteros (por ejemplo, para la madre de la etnia tenemos '1' = blanco, '2' = negro, '3' = otros), no obstante el hecho de que los naturales de pedidos para algunos predictores (por ejemplo, número de prematuro labores o número de visitas al médico) o el uso explícito de las etiquetas (que siempre es una buena idea el uso de 'sí'o'no' en lugar de 1/0 para variables binarias, incluso si eso no cambia nada en el diseño de la matriz!) son simplemente ausente. Como tal, es fácil hablar de lo que puede haber cuestiones planteadas por hacer caso omiso de los niveles o unidades de medida en el análisis de datos.

  2. Las Variables de tipos mixtos son interesantes cuando se trata de hacer algunos análisis exploratorio y discutir qué tipo de gráfica muestra son apropiados para resumir univariante, bivariante o trivariate relaciones. Asimismo, la producción de buen resumen de las tablas, y más en general, la presentación de informes, es otro aspecto interesante de este conjunto de datos (pero el Hmisc::summary.formula comando hace que sea tan fácil bajo R).

  3. De Hosmer y Lemeshow informado de que los datos fueron modificados para proteger a los sujetos de confidencialidad (p. 25). Podría ser interesante para discutir cuestiones de la confidencialidad de los datos, como se ha hecho en uno de nuestros anteriores de la Revista del Club, pero ver su transcripción. (Debo admitir que nunca voy a entrar en detalles mucho con eso.)

  4. Es fácil introducir la ausencia de algunos valores o valores erróneos (que son problemas comunes en la vida real de un estadístico), que conducen a discutir (a) su detección a través de libro de códigos (Hmisc::describe o Stata codebook) o exploratoria de gráficos (siempre revise sus datos de primera!), y (b) posibles soluciones (imputación de datos, eliminación por lista o por parejas medida de asociación, etc.).

5voto

lisa Puntos 29

Por supuesto, la Anscombe 4 conjuntos de datos son muy buenas para la enseñanza - se ven muy diferentes, sin embargo, han simples idénticas propiedades estadísticas.

También sugiero la KDD de la Copa de conjuntos de datos http://www.kdd.org/kddcup/ porque han sido bien estudiados y que hay muchas soluciones, por lo que los estudiantes pueden comparar sus resultados y ver cómo se clasifican.

En mi curso de minería de datos que he proporcionado un conjunto de datos de Microarrays de la competencia que puede ser utilizado por los profesores http://www.kdnuggets.com/data_mining_course/

3voto

tbone Puntos 1930

El Titanic conjunto de datos usado por Harrell en "modelos de Regresión de Estrategias". Yo uso una versión simplificada de su análisis a la hora de explicar la regresión logística, que explica la supervivencia con el sexo, clase y edad.

El Loyn conjunto de datos se describe en "Diseño Experimental y Análisis de Datos para los Biólogos" de Gerry Quinn y Mick Keough contiene agradable problemas que requieren la transformación de regresión lineal múltiple.

3voto

Erik Forsberg Puntos 2246

Una gran parte de mi Análisis Estadístico de los cursos en Cal Poly han utilizado la "Iris" conjunto de datos que en ya en R. Se tiene las variables categóricas, y una alta correlación de las variables.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X