Mi plan es este:
- Encuentre una fuente de datos sobre cuándo y dónde se produjeron accidentes en EE.UU. 101
- Encontrar una fuente de datos sobre el volumen de tráfico en la misma carretera
- Subconjunto de datos para incluir sólo los accidentes ocurridos en la US101. entre San Francisco y Palo Alto.
- Divida los accidentes por el volumen de tráfico para intervalos de tiempo tan pequeños como pueda obtener datos sobre el volumen de tráfico. Por ejemplo, si puedo obtener volumen de tráfico por hora, que sería grande, porque entonces puedo dividir media de accidentes en esa hora de un día determinado por el volumen de tráfico en esa ventana, y luego asumir, a falta de una idea mejor, que cada coche tiene la misma probabilidad de estar involucrado. Quizá pueda obtener algunos datos sobre los diferentes niveles de riesgo por la edad del conductor o el tipo de coche, pero me imagino que las compañías de seguros tienen esos datos y no son compartirlos.
Se agradecerán las sugerencias sobre fuentes de datos. Incluso si tengo que hacer algo pésimo como multiplicar el riesgo nacional per cápita por el volumen de tráfico, eso sería suficiente por ahora, mi principal problema es conseguir los datos. Se agradece cualquier sugerencia inteligente. (FYI: esto es sólo por interés personal)