23 votos

¿Qué modelo estadístico o algoritmo podría utilizarse para resolver el problema del cólera de John Snow?

Estoy interesado en aprender a desarrollar una aproximación geográfica de algún tipo de epicentro basándome en los datos del brote de cólera de John Snow. Qué modelado estadístico podría utilizarse para resolver un problema de este tipo sin conocimiento previo de la ubicación de los pozos.

Como problema general, se dispondría de la hora, la ubicación de los puntos conocidos y la trayectoria a pie del observador. El método que busco utilizaría estas tres cosas para estimar el epicentro del "brote".

25voto

jldugger Puntos 7490

No se trata de dar una respuesta completa o autorizada, sino de estimular las ideas. Voy a exponer un análisis rápido que hice para un ejercicio de laboratorio en un curso de estadística espacial que impartía hace diez años. El objetivo era ver qué efecto tendría un cálculo preciso de las rutas de desplazamiento probables (a pie), en comparación con el uso de distancias euclidianas, en un método exploratorio relativamente sencillo: una estimación de la densidad del núcleo. ¿Dónde estaría el pico (o los picos) de la densidad en relación con la bomba cuya manivela retiró Snow?

Utilizando una representación rasterizada de bastante alta resolución (2946 filas por 3160 columnas) del mapa de Snow (debidamente georreferenciado), digitalicé cada uno de los cientos de pequeños ataúdes negros que aparecen en el mapa (encontrando 558 de ellos en 309 direcciones), asignando cada uno al borde de la calle correspondiente a su dirección, y resumiendo por dirección en un recuento en cada ubicación.

Dot map of input data

Tras un cierto tratamiento de la imagen para identificar las calles y callejones, realicé una difusión gaussiana simple limitada a esas zonas (utilizando medias focales repetidas en un SIG). Este es el KDE.

El resultado habla por sí solo: apenas necesita una leyenda que lo explique. (El mapa muestra muchos otros bombeos, pero todos quedan fuera de esta vista, que se centra en las zonas de mayor densidad).

Snow's map showing density with color.

19voto

Loffen Puntos 163

En [1,§3.2], David Freedman sugiere una negativo respuesta a su pregunta. Es decir, ningún (mero) modelo estadístico o algoritmo podría resolver el problema de John Snow. El problema de Snow consistía en desarrollar un argumento crítico que apoyara su teoría de que el cólera es una enfermedad infecciosa transmitida por el agua, en contra de la opinión generalizada de que el cólera es una enfermedad infecciosa transmitida por el agua. teoría del miasma de su época. (El capítulo 3 de [1], titulado "Los modelos estadísticos y la piel de zapa", también está disponible en su versión publicada anteriormente [2]. aquí .)

En estas breves páginas [1, pp.47-53], gran parte de las cuales son extensas citas del propio John Snow, Freedman sostiene que "lo que Snow hizo realmente en 1853-54 es aún más interesante que la fábula [de la bomba de Broad Street]". En cuanto a la datos estadísticos (además se tratan otros aspectos preliminares como la identificación de casos índice, etc.), Snow variación natural explotada para llevar a cabo un cuasi-experimento verdaderamente notable.

Resulta que, en una época anterior, existía una vigorosa competencia entre las empresas de suministro de agua de Londres, y esto dio lugar a una mezcla espacial del suministro de agua que era (en palabras de Snow) "del tipo más íntimo".

Las tuberías de cada empresa bajan por todas las calles y llegan a casi todos los patios y callejones. Unas pocas casas son abastecidas por una Compañía y otras pocas por la otra, según la decisión del propietario u ocupante en el momento en que las Compañías de Aguas estaban en activa competencia.

...

Como no hay diferencia alguna en las casas o las personas que reciben el suministro de las dos Compañías de Agua, o en cualquiera de las condiciones físicas con las que están rodeadas, es obvio que no se podría haber ideado ningún experimento que probara más a fondo el efecto del suministro de agua sobre el progreso del cólera que éste, que las circunstancias pusieron listo ante el observador.

-John Snow

Otra "variación natural" de importancia crítica que John Snow explotó en este cuasi-experimento fue que una compañía de aguas tenía su toma de agua en el Támesis aguas abajo de los vertidos de aguas residuales mientras que el otro había reubicado su toma unos años antes. aguas arriba . Te dejaré adivinar cuál era cuál a partir de la tabla de datos de John Snow.

                     | Number of | Cholera | Deaths per
Company              |    houses |  deaths | 10,000 houses
----------------------------------------------------------
Southwark & Vauxhall |    40,046 |    1263 |    315
Lambeth              |    26,107 |      98 |     37
Rest of London       |   256,423 |    1422 |     59

Como Freedman señala mordazmente,

Como pieza de tecnología estadística, [la tabla anterior] no es en absoluto notable. Pero la historia que cuenta es muy persuasiva. La fuerza del argumento se debe a la claridad del razonamiento previo, a la reunión de muchas líneas de pruebas diferentes y a la cantidad de cuero de zapatos que Snow estaba dispuesto a utilizar para obtener los datos. [1, p.51]

Otro punto de variación natural explotado por Snow se produjo en el tiempo dimensión: se produjo la mencionada reubicación de la toma de agua entre dos epidemias, lo que permitió a Snow comparar el agua de la misma empresa con y sin aguas residuales añadidas. (Gracias a Philip B. Stark, uno de los autores de [1], por esta información. vía Twitter . Véase esta conferencia en línea de la suya).


Este asunto también ofrece un instructivo estudio del contraste entre deductivismo y inductivismo como se expone en esta respuesta .

  1. Freedman D, Collier D, Sekhon JS, Stark PB. Modelos estadísticos e inferencia causal: Un diálogo con las ciencias sociales. Cambridge ; Nueva York: Cambridge University Press; 2010.

  2. Freedman DA. Modelos estadísticos y piel de zapa. Metodología sociológica . 1991;21:291-313. doi:10.2307/270939. Texto completo

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X