26 votos

Estrategias para la introducción de estadísticas avanzadas para diversos públicos

Yo trabajo principalmente con los no estadísticos en campos tales como la medicina, las ciencias sociales y la educación.

Si estoy consultando con los estudiantes, ayudando a los investigadores con los artículos o la revisión de artículos para revistas, a menudo tengo el problema de que alguien (cliente, el autor, el comité de disertación, editor de la revista) quiere usar algunas relativamente bien conocida técnica cuando es totalmente inapropiado o cuando mejor pero menos conocidos métodos que existen. A menudo, voy a explicar la técnica alternativa, pero luego se dijo "todo el mundo lo hace de otra manera".

Yo estaría interesado en cómo los demás se ocupan de esta clase de dificultad.

ADICIONES

@MichaelChernick me sugirió que podría compartir algunas historias, así que voy a

Actualmente estoy trabajando con una persona que es duplicar un artículo anterior, y añadiendo una variable independiente para ver si eso ayuda. El documento anterior es francamente terrible. Se trata dependientes de los datos como si fueran independientes; es tremendamente overfit y hay otros problemas también. Sin embargo, él (mi cliente) presentó una versión anterior como una tesis doctoral y no sólo obtuvo su grado, pero fue ampliamente elogiado por la investigación.

Muchas veces he tratado de convencer a la gente de no dividir las variables. Esto viene muy a menudo en la medicina. Yo pacientemente señalar que dicohotomizing (decir) peso al nacer en bajo y normal (generalmente a 2.500 g) significa que el tratamiento de un 2,499 g bebé como igual a 1.400 g; pero el tratamiento de la 2,501 gramo bebé de manera muy diferente. El médico está de acuerdo conmigo en que esto es una tontería. Luego dice a hacerlo de esa manera.

Tuve un estudiante de posgrado de cliente de hace mucho tiempo, cuyo comité insistió en un análisis de cluster. El estudiante no entiende el método, el método no responder a preguntas útiles, pero que es lo que el comité quería, así que eso es lo que consiguieron.

Todo el campo de los gráficos estadísticos es que, para muchos, "esta es la forma en que el abuelo hizo que" es suficiente.

Luego hay gente que parece que solo los botones. Recuerdo una presentación (no se por que alguien me ayudó!) que habían tomado todo el cuestionario y el factor analizado. Una de las variables ella se incluyó el número de ID!

Oy.

16voto

Pankaj Kumar Puntos 150

Esta es una pregunta difícil!

En primer lugar, algunas reflexiones sobre por qué sucede esto. Yo trabajo en una zona que hace (o al menos debería) hacer un uso extensivo de las estadísticas, pero donde la mayoría de los practicantes no son expertos en estadísticas. En consecuencia, uno ve un montón de "me puse un vector en excel la prueba de la t de la función y este número se cayó. Por lo tanto, mi papel es apoyado por la oficina de estadísticas."

La principal razón que veo para que esto ocurra es que la falta de estadísticas de conocimiento se inicia en la parte superior. Si los revisores y del comité de tesis no mantenerse al día en las técnicas estadísticas, entonces usted necesita para justificar el uso de cualquier cosa que es "poco convencional". Por ejemplo, en una tesis, he optado por utilizar el violín parcelas en lugar de diagramas de caja para mostrar la forma de una distribución. El uso de esta técnica requiere una amplia documentación en la tesis, así como un prolongado debate en mi defensa, donde todos los miembros del comité deseaban saber qué esta extraña trama de significado, a pesar de que las descripciones en el texto y las referencias a la fuente de material. Había que sólo utiliza un diagrama de caja (que muestra estrictamente menos información en este caso, y puede fácilmente engañar al espectador acerca de la forma de una distribución, si es multi-modal) nadie hubiera dicho nada, y mi defensa habría sido más fácil.

El punto es, en la no-estadísticas de los campos profesionales se enfrentan a una difícil elección: podemos leer acerca de y, a continuación, el uso correcto de los métodos, lo que implica un montón de trabajo que ninguno de nuestros altos mandos son de su interés; o podemos simplemente ir con la corriente, obtener el sello de goma en nuestros trabajos y tesis, y mantener el uso incorrecto, pero convencional métodos.

Ahora, para responder a su pregunta:

Creo que es una buena aproximación enfatiza las consecuencias de no usar las técnicas correctas. Esto puede implicar:

  • Dando un ejemplo del mundo real de cómo alguien en su campo experimentado las consecuencias de la baja inferencia. Esto es más fácil en algunos campos que en otros. Ejemplos en que las carreras fueron dañadas son especialmente buenos.

  • Explicando que hacer análisis incorrecto puede dejar en una situación donde sus resultados son muy poco probable que la transferencia a la del mundo real, lo que podría causar daños (por ejemplo, En mi campo, si su A. I. prototipo de sistema aparece estadísticamente mejor que la competencia, pero en realidad es la misma, a continuación, pasar los próximos 6 meses la construcción de una implementación completa es una idea realmente mala.

  • Elegir las técnicas que va a salvar a los usuarios una gran cantidad de tiempo. Tiempo suficiente para que puedan pasar lo que guardar explicando las técnicas a los altos mandos.

6voto

Niall Puntos 51

Hay algunos buenos comentarios ya realizados aquí, pero voy a tirar mis 2 centavos. Voy a escribir el prólogo de esta todos diciendo que estoy suponiendo que estamos hablando de una situación donde el uso de la tradicional "enlatados" técnicas de dañar el sustantivo de las conclusiones alcanzadas en el análisis. Si ese no es el caso, entonces yo creo que, en ocasiones, hacer excesivamente simplista análisis es excusable, tanto por razones de brevedad y facilidad de comprensión cuando el público objetivo son los laicos. Es realmente un crimen para asumir la independencia, cuando la correlación intraclase es de .02 o asumir la linealidad cuando la verdad es que $\log(x); \ x \in (1,2)? \ $ Yo diría que no.


En mi carrera tengo que hacer un montón de investigación interdisciplinaria y me ha llevado a trabajar estrechamente con el abuso de sustancias, investigadores, epidemiólogos, biólogos, los criminólogos y los médicos en varias ocasiones. Normalmente, esto implicó el análisis de los datos donde la habitual "enlatados" enfoques iba a fallar por diversas razón (por ejemplo, una combinación de muestreo sesgado y agrupado, longitudinalmente y/o espacialmente los datos indexados). También me pasó un par de años de consultoría a tiempo parcial en la escuela de posgrado, donde he trabajado con gente de una gran variedad de campos. Así que, he tenido que pensar mucho sobre esto.

Mi experiencia es que la cosa más importante es explicar por qué la costumbre de lata enfoques inadecuados, y la apelación a la voluntad de la persona para hacer la "buena ciencia". No respetable investigador quiere publicar algo que es claramente engañosa en sus conclusiones debido a inadecuado análisis estadístico. Nunca he encontrado a alguien que dice algo a lo largo de las líneas de "no me importa si el análisis es correcto o no, sólo quiero conseguir esta publicado" aunque estoy segura de que tales personas existen - mi respuesta no iba a ser el fin de la relación profesional, si es posible. Como el estadístico, es mi reputación que podrían ser dañados si alguien que realmente sabe lo que están hablando ocurre leer el papel.

Admito que puede ser un poco difícil convencer a alguien de que un análisis particular es inapropiado, pero creo que como los estadísticos nos debe (a) tener el conocimiento necesario para saber exactamente lo que puede ir mal con la "lata" y (b) tener la capacidad de explicar es razonablemente una manera comprensible. A menos que usted está trabajando como estadísticas o profesora de matemáticas, una parte de su trabajo va a ser para trabajar con los estadísticos (e incluso a veces, si usted es un stat/matemáticas prof).

Con respecto a (a), si el estadístico no tiene este conocimiento, ¿por qué habría de ser desalentador de la conserva de enfoque? Si el estadístico es decir "el uso de modelos de efectos aleatorios", pero no puede explicar por qué suponiendo que la independencia es un problema, entonces no son ellos los culpables de caer en el dogma de la misma manera que el cliente es? Cualquier revisor, estadístico o no, puede hacer pedante críticas de un modelado estadístico enfoque porque, seamos sinceros, todos los modelos están equivocados. Pero, se requiere experiencia para saber exactamente lo que podría ir mal.

Con respecto a (b), he encontrado que la gráfica de representaciones de lo que podría salir mal, normalmente "éxito" de la mayoría. Ejemplos:

  • En el ejemplo dado por Pedro acerca de la categorización de los datos continuos, la mejor manera de demostrar por qué es una mala idea es representar gráficamente los datos en su forma continua y compararlo con su forma categórica. Por ejemplo, si usted está haciendo su variable de respuesta binaria, a continuación, la trama de la variable continua versus $x$, y, si no se ve un montón de cosas como una función de paso, entonces usted sabe que la discretización perdido información valiosa. Si esta diferencia no es drástica, o que resulten en cambios en el sustantivo conclusiones, también se puede ver este de la parcela.

  • Cuando la propuesta de la "forma" de la modelo (por ejemplo, lineal) es inapropiado. Por ejemplo, si la función de regresión "mesetas" como $y = x$ para $x \in (0,1)$ pero $s = 1$ para $x > 1$, a continuación, un ajuste lineal de la pendiente será demasiado superficial y, dependiendo de los datos, esto podría empujar a los $p$-valor por debajo de importancia a pesar de que existe una relación evidente entre $x$ y $y$.

  • Otra situación común (también mencionado por Pedro) es la explicación de por qué suponiendo que la independencia es una mala idea. Por ejemplo, se puede mostrar con una trama que positivo de autocorrelación se suelen producir datos que es más "agrupado" y la varianza será subestimar por esa razón, dando cierta intuición de por qué los ingenuos errores estándar tienden a ser muy pequeños. O, usted podría también representar los datos con el conjunto de la curva que asume la independencia y uno puede ver visualmente cómo los clusters influir en el ajuste (reducción de la eficacia del tamaño de la muestra) de una manera que no está presente en datos independientes.

Hay un millón de otros ejemplos, pero estoy trabajando con el espacio/tiempo, las restricciones aquí :) Cuando las imágenes, simplemente no va a hacer por la razón que sea (por ejemplo, mostrando por qué un enfoque es de poca potencia), a continuación, la simulación de los ejemplos son también una opción que he empleado a partir de tiempo al tiempo.

5voto

mat_geek Puntos 1367

Gracias por esta interesante pregunta Pedro. Yo trabajo en una institución de investigación médica y de acuerdo con los médicos que realizan investigaciones y publican en las revistas médicas. A menudo están más interesados en obtener su documento publicado de "hacer las estadísticas completamente a la derecha". Así que, cuando me propongo una unfamilar técnica que se apuntan a un papel similar y decir: "mira que lo hizo de esta manera y tiene sus resultados publicados."

Hay un problema, yo creo que si el documento publicado es realmente mala, y tiene errores. Es difícil argumentar pesar de que tengo una gran reputación. Algunos documentos tienen grandes egos y creo que se puede aprender casi cualquier cosa. Así que piensan que entender las estadísticas cuando no lo hacen y pueden ser insistente. Se puede volver frustrante. Cuando se trata de una prueba de la t de Wilcoxon y es más apropiado que puedo llegar a hacer un Shapiro Wilk prueba y si la normalidad es rechazado se incluyen tanto los métodos y explicar el por qué de Wilcoxon es mejor. A veces me puede convencer de ellos y, a menudo dependen de mí para las estadísticas, así que tengo un poco más de peso, a continuación, asesor general podría tener.

También me encontré con una situación en la que me hicieron curvas de Kaplan-Meier para ellos y se utilizó la prueba de log rank, pero de Wilcoxon dio un resultado diferente. Fue difícil para mí decidir y, en tales situaciones, creo que es el mejor modo de presentar ambos métodos y explicar por qué difieren. Lo mismo ocurre para el uso de Peto vs Greenwood los intervalos de confianza para la curva de supervivencia. Explicando la Cox proporción de peligro suposición puede ser difícil y a menudo malinterpretan las odds ratio y el riesgo relativo.

La respuesta no es sencilla. Tuve un jefe aquí, que era un investigador médico en cardiología y él a veces los árbitros de las revistas. Él estaba mirando un papel que aborda el diagnóstico y utiliza las AUC como una medida. Nunca había visto un AUC de la curva de antes y vino a mí para ver si yo pensaba que era válido. Había dudas. Resultó ser apropiado y me explicó que para él lo mejor que pude.

He tratado de dar una conferencia sobre bioestadística para médicos y han enseñado a la bioestadística en las escuelas de salud pública. yo trate de hacerlo mejor que los demás, y han producido un libro de ciencias de la salud especializaciones curso de introducción en el año 2002 con un epidemiólogo como coautor. Wiley me quiere hacer una segunda edición ahora. En 2011 publiqué un breve libro que traté de cubrir sólo los elementos esenciales para que ocupado MDs puede tomar el tiempo para reasd y de referencia. Que es ¿cómo puedo lidiar con eso. Tal vez usted puede compartir sus historias con nosotros.

3voto

DarenW Puntos 161

Algunos pensamientos al azar porque se trata de un complejo problema...

Creo que un gran problema es la falta de educación de matemáticas en una variedad de disciplinas profesionales y graduados de los programas.

Sin una comprensión matemática de la estadística, se convierte en un montón de fórmulas para ser aplicados según el caso.

También, para conseguir una verdadera comprensión de la materia, los profesores deben hablar sobre el original de los problemas que los autores originales se enfrentan en el momento de la publicación de sus enfoques. Uno puede aprender más de eso que de la lectura de miles de libros sobre el tema.

La estadística es una caja de herramientas para la resolución de problemas, pero también es un arte y se enfrenta a los mismos problemas que cualquier otro arte.

Uno puede aprender a hacer sonidos con un instrumento. Sino por ser capaz de "tocar" un instrumento uno no se convierte en un músico.

Sin embargo, no es raro encontrar personas que se ven a sí mismos como músicos sin haber estudiado un solo concepto de ritmo, melodía y armonía.

En la misma línea, para la obtención de los trabajos publicados, la mayoría de la gente no necesita saber ni entender los conceptos detrás de una fórmula... hoy en día los científicos necesitan saber lo clave que tienen a la prensa y cuando tiene que ser presionado, y punto.

Así que esto no tiene nada que ver con el "ego" de los Smd. Este es un subcultural problema, un problema más relacionado con la educación, las costumbres y los valores de la comunidad científica.

Lo que uno puede esperar en una época en la que hay miles y miles y miles de inútiles papeles y libros que se publica para el cumplimiento de algunos requisitos académicos/políticas? En una época en la que la cantidad de papeles que uno publica es más importante que la calidad de las mismas?

Incorporar los científicos no están preocupados por el bien de la ciencia más. Son esclavos de los números. Ellos se ven afectados (o infectados) por la vía administrativa error de nuestra era...

Así que, desde mi punto de vista, un buen curso en estadística debe incluir el matemático, histórico y filosófico de la base de que el planteamiento del estudio, siempre destacando los varios caminos que se pueden tomar para resolver un solo problema.

Por último, si yo fuera un profesor de estadística/probabilidad, mi primera conferencia(s) estará dedicado a problemas como barajar cartas o lanzar una moneda. Que va a poner a la audiencia en la posición correcta para escuchar... probablemente.

2voto

Anthony Giorgio Puntos 824

Hablando desde la perspectiva de un psicólogo con sólo un ligero estadística sofisticación: Al introducir el método, también se introducen las herramientas. Si usted le dice a la mayoría de los investigadores en el campo de una larga historia acerca de un gran nuevo método, que van a pasar todo el tiempo preocupado de que el remate es "y todo lo que tienes que hacer es cepillar para arriba en su cálculo diferencial y, a continuación, tomar dos semanas de curso de formación!" (o "y comprar un $2000 las estadísticas de paquete!" o "y la adaptación de 5000 líneas de Python y R código!"). Mientras que si existe una implementación del método disponible en las estadísticas de paquetes que ya uso, o en una pieza de software libre con un comprensible interfaz gráfica de usuario, y que puede ponerse en un día o dos, ellos podrían estar dispuestos a darle una oportunidad.

Soy consciente de que este enfoque puede parecer corrupta y poco científico, pero es fácil para la gente a caer en cuando está preocupado acerca de becas y publicaciones, y no vemos el aprendizaje de las enormes cantidades de matemáticas como probable para ayudar a mantener sus puestos de trabajo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X