Algunos comentarios, demasiado extensos para caber en la caja de comentarios:
(1) Hay una revisión bastante reciente de al menos algunas partes de la prueba en el libro "Heegner points and Rankin $L$ -series", MSRI Publ. 49. (Brian Conrad en particular, tiene un artículo en el que reelabora los argumentos de la teoría de la deformación).
(2) El teorema es un cálculo: se calcula la altura del punto de Heegner utilizando las alturas locales de Neron-Tate, y se relaciona la respuesta (una suma de las contribuciones de cada lugar) con una expresión correspondiente para la derivada.
(3) Es el trabajo de Kolyvagin el que demuestra que si el punto de Heegner es distinto de cero, entonces genera el grupo de Mordell-Weil (hasta índice finito); así que si quieres motivación para la verdad de Gross--Zagier, puedes pensar que es una consecuencia de BSD + Kolyvagin. (Aunque esto puede ser ahistórico).
(4) Históricamente, Birch fue quien calculó los puntos de Heegner en curvas elípticas, y descubrió que eran generadores del grupo Mordell--Weil (hasta índice finito) precisamente cuando el rango era uno. Esto animó mucho a Gross (como explicó en un momento dado cuando yo estaba en la escuela de posgrado), porque significaba que allí debe sea una relación entre la derivada en 1 y la altura del punto de Heegner, y sólo había que encontrarla.
(5) Las partes aritmético-geométricas de Gross--Zagier son maravillosas; no se me ocurriría en absoluto vano estudiarlas. No he estudiado las partes analíticas, pero sin duda son igualmente maravillosas.
(6) Se puede empezar con el artículo de Crelle de Gross--Zagier, que trata esencialmente del caso del nivel uno. Como la curva modular de nivel uno tiene género 0, la altura es necesariamente cero, y así se obtiene una fórmula muy bonita que relaciona la suma de las alturas locales finitas con la altura local arquimediana. Y se puede demostrar la misma fórmula de otra manera, utilizando un caso especial de los argumentos analíticos que en el entorno general calculan la derivada. El hecho de que la misma fórmula se obtenga de estas dos formas distintas es un caso especial de la fórmula general de Gross--Zagier; pero puede resultar más sencillo entender las dos vertientes y la comparación entre ellas en este escenario de nivel uno.
(7) Según tengo entendido, Kato no dice nada en el caso analítico de rango uno. Para BSD en este caso, uno necesita Gross--Zagier más Kolyvagin.