El bajo peso al nacer de estudio
Este es uno de los conjuntos de datos de Hosmer y Lemeshow del libro de texto en Aplicó la Regresión Logística (2000, Wiley, 2da ed.). El objetivo de este estudio prospectivo fue identificar los factores de riesgo asociados con dar a luz a un peso bajo de nacimiento (que pesan menos de 2.500 gramos). Los datos fueron recolectados en 189 mujeres, de las cuales 59 se tuvieron bajo peso al nacer de los bebés y 130 de los cuales tenían peso normal al nacer, los bebés. Cuatro de las variables que se consideraron de importancia fueron la edad, el peso del sujeto en su último período menstrual, la raza y el número de visitas al médico durante el primer trimestre del embarazo.
Está disponible en R data(birthwt, package="MASS")
o en Stata con webuse lbw
. Una versión de texto que aparece aquí: lowbwt.dat (descripción). De la nota, hay varias versiones de este conjunto de datos debido a que se amplió a un estudio caso-control (1-1 o 1-3, emparejados en edad), como se ilustra por Hosmer y Lemeshow en ALR capítulo 7.
Yo solía enseñar cursos de iniciación basado en este conjunto de datos por los siguientes motivos:
- Es interesante desde una perspectiva histórica y perspectiva epidemiológica (los datos fueron recogidos en 1986); no se necesitan conocimientos previos en la medicina o de la estadística es necesaria para comprender las ideas principales y qué preguntas se pueden plantear a partir de ese estudio.
- Varias variables de tipos mixtos (continua, ordinal y nominal) que hace que sea fácil de presentar básicos de las pruebas de asociación (t-test, ANOVA, $\chi^2$-prueba durante dos tablas, odds-ratio, Cochrane y Armitage prueba de tendencia, etc.). Además, el peso al nacer está disponible como una medida continua así como un indicador binario (por encima o por debajo de 2.5 kg): podemos iniciar la construcción de sencillos modelos lineales, seguido por el de regresión múltiple (con predictores de interés seleccionada desde antes del análisis exploratorio) y, a continuación, cambie a la GLM (regresión logística), posiblemente un debate sobre la elección de un corte.
- Permite discutir las diferentes perspectivas de modelado (explicativo o predictivo enfoques), y la implicación del esquema de muestreo cuando el desarrollo de los modelos de estratificación/coincide casos).
Otros puntos que se pueden destacar, dependiendo de la audiencia y el nivel de experiencia con el software estadístico, o de las estadísticas en general.
Como para el conjunto de datos disponibles en R, los predictores categóricos se evalúan como enteros (por ejemplo, para la madre de la etnia tenemos '1' = blanco, '2' = negro, '3' = otros), no obstante el hecho de que los naturales de pedidos para algunos predictores (por ejemplo, número de prematuro labores o número de visitas al médico) o el uso explícito de las etiquetas (que siempre es una buena idea el uso de 'sí'o'no' en lugar de 1/0 para variables binarias, incluso si eso no cambia nada en el diseño de la matriz!) son simplemente ausente. Como tal, es fácil hablar de lo que puede haber cuestiones planteadas por hacer caso omiso de los niveles o unidades de medida en el análisis de datos.
Las Variables de tipos mixtos son interesantes cuando se trata de hacer algunos análisis exploratorio y discutir qué tipo de gráfica muestra son apropiados para resumir univariante, bivariante o trivariate relaciones. Asimismo, la producción de buen resumen de las tablas, y más en general, la presentación de informes, es otro aspecto interesante de este conjunto de datos (pero el Hmisc::summary.formula
comando hace que sea tan fácil bajo R).
De Hosmer y Lemeshow informado de que los datos fueron modificados para proteger a los sujetos de confidencialidad (p. 25). Podría ser interesante para discutir cuestiones de la confidencialidad de los datos, como se ha hecho en uno de nuestros anteriores de la Revista del Club, pero ver su transcripción. (Debo admitir que nunca voy a entrar en detalles mucho con eso.)
Es fácil introducir la ausencia de algunos valores o valores erróneos (que son problemas comunes en la vida real de un estadístico), que conducen a discutir (a) su detección a través de libro de códigos (Hmisc::describe
o Stata codebook
) o exploratoria de gráficos (siempre revise sus datos de primera!), y (b) posibles soluciones (imputación de datos, eliminación por lista o por parejas medida de asociación, etc.).