Es cierto que seleccionar ciudades por debajo de un umbral de valor $p$, como $p = .01$ en tu ejemplo, y volver a ejecutar el análisis solo en esas ciudades te daría una estimación optimista del efecto del tratamiento. El nombre más común para este efecto es "sesgo de selección" aunque también se utilizan otros términos como "la maldición del ganador".
Para ver esto rápidamente, imagina tomar mil muestras de una distribución normal $X_i \sim N(0,1)$, tomar las 10 observaciones más positivas y calcular el promedio solo de esas diez observaciones. Este promedio claramente será mucho mayor que 0, la media real.
Estimación No Sesgada
Suponiendo que ajustas un modelo a toda la muestra para seleccionar las ciudades como describiste, la respuesta es que no puedes obtener una estimación no sesgada sin hacer suposiciones y los métodos serán específicos de esas suposiciones.
Dando un paso atrás, puedes obtener una estimación no sesgada si cambias tu enfoque. La forma más simple es dividir tus datos en dos conjuntos de datos, y luego utilizar un conjunto de datos para seleccionar las ciudades que reciban tratamiento y estimar el efecto del tratamiento en las ciudades seleccionadas usando el otro conjunto de datos. Las estimaciones puntuales serán no sesgadas y puedes construir intervalos de confianza con las coberturas correctas sin necesidad de métodos especiales. Aunque es simple, no es la forma más eficiente de utilizar todos los datos en la muestra. Hay numerosos métodos que se basan en este enfoque general pero que utilizan de manera más eficiente la muestra, como repetir este procedimiento y combinar los resultados de una manera que preserve la propiedad de no sesgo.
Literatura Relacionada
Tres líneas de trabajo en las que puedes buscar sobre este problema son "división de muestra", "inferencia post-selección" y "aprendizaje de máquinas doble / no sesgado", aunque hay otros. La literatura sobre división de muestra probablemente sea el lugar menos técnico para empezar, ya que los otros dos entornos a menudo se relacionan con complicaciones como problemas de alta dimensión. El problema está relacionado con el error de tipo M como comentó Sextus, pero ese concepto se utiliza más para analizar diseños de estudio, ya que implica considerar tamaños de efecto hipotéticos (y tamaños de muestra si se hace al planificar un estudio).
Aquí tienes algunos artículos de revisión:
Kuchibhotla AK, Kolassa JE, Kuffner TA. Post-selection inference. Annual Review of Statistics and Its Application. 2022 Mar 7;9:505-27.
Kennedy EH. Semiparametric doubly robust targeted double machine learning: a review. arXiv preprint arXiv:2203.06469. 2022 Mar 12. (enlace en pdf)
Fithian W, Sun D, Taylor J. Optimal inference after model selection. arXiv preprint arXiv:1410.2597. 2014 Oct 9.(enlace en pdf)
Y un artículo temprano sobre el tema que es increíblemente corto y fácil de leer: Cox DR. A note on data-splitting for the evaluation of significance levels. Biometrika. 1975 Aug 1;62(2):441-4.