24 votos

Estadística forense: Benford y más allá

Lo amplio de métodos existen para detectar el fraude, anomalías, fudging, etc. en los trabajos científicos producidos por un tercero? (Me motivó a hacer esta por la reciente Marc Hauser asunto.) Generalmente para la elección y fraude contable, alguna variante de la Ley de Benford es citado. No estoy seguro de cómo esto podría aplicarse por ejemplo, el de Marc Hauser caso, porque la Ley de Benford requiere números para ser aproximadamente de registro uniforme.

Como un ejemplo concreto, supongamos que un papel citados los valores de p para un gran número de pruebas estadísticas. Se podría transformar estos para registro de la homogeneidad, a continuación, aplicar la Ley de Benford? Parece que habrá todo tipo de problemas con este enfoque (por ejemplo, algunas de las hipótesis nula legítimamente puede ser falsa, la estadística código podría dar los valores de p que son sólo aproximadamente correcta, las pruebas sólo pueden dar los valores de p que son uniformes en la anulación asintóticamente, etc.)

11voto

Eric Davis Puntos 1542

Gran Pregunta!

En el contexto científico hay varios tipos de problemáticas de presentación de informes y la conducta problemática:

  • Fraude: me gustaría definir el fraude como una deliberada intención por parte del autor o analista de tergiversar los resultados y donde la falsedad es de suficiente gravedad. El principal ejemplo es completar la fabricación de materias primas de datos o estadísticas de resumen.
  • Error: los Datos se puede hacer un análisis de los errores en muchas de las fases de análisis de los datos de entrada de datos, manipulación de datos, análisis, presentación de informes, a la interpretación.
  • Comportamiento inapropiado: Hay muchas formas de comportamiento inapropiado. En general, puede resumirse por una orientación que busca confirmar una posición particular en lugar de la búsqueda de la verdad.

Ejemplos comunes de comportamiento inapropiado incluir:

  • El examen de una serie de posibles variables dependientes y sólo la presentación de informes de la que es estadísticamente significativa
  • Y ni hablar de importantes violaciones de los supuestos
  • La realización de las manipulaciones de datos y demás procedimientos de remoción, sin mencionarla, especialmente cuando estos procedimientos son tanto inapropiado y elegido puramente para hacer que los resultados se vean mejor
  • Presentación de un modelo como confirmatorias, que en realidad es exploratorio
  • La omisión de importantes resultados que van en contra de la deseada argumento
  • La elección de una prueba estadística únicamente sobre la base de que esto hace que los resultados se vean mejor
  • El funcionamiento de una serie de cinco o diez bajo-powered estudios en los que sólo uno es estadísticamente significativa (quizás en p = .04) y, a continuación, el informe del estudio sin hacer mención de los otros estudios

En general, me gustaría hipótesis de que la incompetencia es el conjunto de las tres formas de la conducta problemática. Un investigador que no entiende cómo hacer buena ciencia, pero de lo contrario, quiere tener éxito tendrán un mayor incentivo para falsear sus resultados, y es menos probable que el respeto de los principios éticos en el análisis de datos.

Las anteriores distinciones tienen implicaciones para la detección de conductas problemáticas. Por ejemplo, si te las arreglas para discernir que un conjunto de resultados reportados están mal, que aún debe ser determinada en cuanto a si los resultados se levantó de fraude, error o comportamiento inadecuado. También, yo supongo que las diversas formas de comportamiento inapropiado, son mucho más comunes de fraude.

Con respecto a la detección de conductas problemáticas, creo que en gran medida es una habilidad que se adquiere a partir de la experiencia de trabajo con los datos, trabajando con un tema, y trabajando con los investigadores. Todas estas experiencias fortalecer sus expectativas acerca de qué datos debe ser similar. Por lo tanto, las principales desviaciones de las expectativas de iniciar el proceso de búsqueda de una explicación. La experiencia con los investigadores que da una idea de los tipos de comportamiento inapropiado, que son más o menos comunes. En esta combinación conduce a la generación de hipótesis. Por ejemplo, si he leído un artículo de revista, y estoy sorprendido con los resultados, el estudio es de poca potencia, y la naturaleza de la escritura sugiere que el autor se fija en la fabricación de un punto, puedo generar la hipótesis de que los resultados tal vez no debe ser de confianza.

Otros Recursos

5voto

Chris Cudmore Puntos 634

En realidad, la Ley de Benford es un increíblemente poderoso método. Esto es debido a que el Benford frecuencia de la distribución del primer dígito es aplicable a todo tipo de conjunto de datos que se producen en el real o el mundo natural.

Tienes razón en que puede utilizar la Ley de Benford sólo en ciertas circunstancias. Usted dice que los datos tienen que tener un uniforme de registro de distribución. Técnicamente, esto es absolutamente correcto. Pero, se podría describir el requisito de una manera mucho más simple y flexible. Todo lo que necesita es que el rango del conjunto de datos cruza al menos un orden de magnitud. Digamos de 1 a 9 de 10 a 99 o 100 a 999. Si se cruza de dos órdenes de magnitud, usted está en el negocio. Y, la Ley de Benford debe ser bastante útil.

La belleza de la Ley de Benford es que ayuda a reducir su investigación de una manera realmente rápida en la ag(s) dentro de la pila de heno de datos. Buscas las anomalías por el cual la frecuencia de primer dígito es muy diferente de Benford frecuencias. Una vez que usted nota que hay dos muchos 6s, a continuación, utilizar la Ley de Benford para centrarse en el 6s; pero, se toma ahora a los dos primeros dígitos (60, 61, 62, 63, etc...). Ahora, tal vez usted encontrará que hay un montón más 63s, a continuación, lo Benford sugieren (puede hacer que mediante el cálculo de Benford frecuencia: log(1+1/63) que le da un valor cercano a 0%). Así, el uso de Benford para los tres primeros dígitos. Por el momento en que se entera de que hay demasiados 632s (o lo que sea mediante el cálculo de Benford frecuencia: log (1+1/632)) que se esperaba usted está probablemente en algo. No todas las anomalías que son fraudes. Pero, la mayoría de los fraudes son anomalías.

Si el conjunto de datos que Marc Hauser manipulados son naturales sin restricciones de datos, mediante un rango que fue lo suficientemente grande, entonces la Ley de Benford sería una muy buena herramienta de diagnóstico. Estoy seguro de que hay otras buenas herramientas de diagnóstico: detección de raro patrones y mediante la combinación de ellos con la Ley de Benford usted podría probablemente han investigado el Marc Hauser asunto de manera efectiva (teniendo en cuenta los datos mencionados requisito de la Ley de Benford).

Voy a explicar la Ley de Benford un poco más en esta breve presentación que se puede ver aquí: http://www.slideshare.net/gaetanlion/benfords-law-4669483

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X