4 votos

Qué hacer con un pequeño (27) médicos conjunto de datos?

Estoy trabajando con una gran cantidad de datos que han sido recogidos por los obstetras sobre la salud de los infantes (peso al nacer, edad gestacional al momento del parto, la madre IMC), y estoy tratando de conectar los datos con geométricas mediciones realizadas en microscópicas escaneo de las diapositivas para cada uno de los asociados de la placenta (área, perímetro, el número de vasos sanguíneos). Cada madre-bebé-placenta trío se identifica con un laboratorio de ID de modo que es posible saber cual es cual, pero sólo hay 27 conjuntos de madre-bebé-de la placenta.

Todos los datos clínicos fueron tomadas antes de que yo llegara a la escena. Yo era bastante dado a la placenta de diapositivas de imágenes, y una hoja en excel de los datos clínicos. A continuación, he realizado las mediciones geométricas de las placentas. De modo que los datos no fue tomado con mi propósito en mente.

Mi pregunta es, ¿qué puedo hacer con estos datos? He recogido las mediciones con algunos conocimientos clínicos, que la condición de una placenta es tanto una influencia en la reflexión y de la salud infantil resultado. Pero necesito desesperadamente el asesoramiento sobre la estadística de minería de datos y técnicas que puede utilizar para ver cómo mis medidas afectan a/es un indicador de la salud de los bebés.

Hay alguna esperanza para el análisis ad-hoc en un pequeño tamaño de la muestra?

9voto

knweiss Puntos 2810

Estoy de acuerdo con JMS, será necesario trazar cada una de sus variables en primer lugar porque PCA requiere el supuesto de normalidad. Si las variables no están normalmente distribuidos, entonces no es apropiado para el uso de la PCA, antes de la transformación de las variables. Creo que usted necesita preguntarse a sí mismo, lo que realmente quiero saber a partir de este conjunto de datos (configurar tu hipótesis), entonces usted será capaz de recoger el derecho de los tests estadísticos.

No es bueno para dividir las variables continuas en las variables categóricas, ya que se pierden poder para detectar la diferencia. Sin embargo, si este es el caso, Usted podría usar "odds ratio", "riesgo de la diferencia", etc para interpretar sus conjuntos de datos.

Sinceramente,

4voto

Shawn Puntos 8120

Si usted está buscando para la significación estadística I no esperar a menos que tenga una muy específica hipótesis y/o hay un efecto muy fuerte. Pero ciertamente, se podría generar algunas hipótesis con estos datos a través de algunos análisis exploratorio. Con 6 variables que en general no estoy seguro de que me gustaría comenzar con el modelado sofisticado. Nunca subestimes el poder de diagramas de dispersión y gráficos de barras :)

Uno muy simple cosa a hacer sería correr PCA y ver si los resultados en cualquiera de los componentes tienen una relación aparente con la respuesta(s) que usted está interesado en. Es probablemente una buena<\strike> idea razonable de todos modos ya que sus medidas son sin duda correlacionados.

Edit: Mi pensamiento sobre el uso de la PCA fue básicamente para reducir el área/perímetro/número de variables a una sola dimensión. No es estrictamente necesario, pero podría hacer que la visualización de las relaciones más fácil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X