$X$ es el número de ensayos de Bernoulli antes del primer éxito.
$A_1$ y $A_2$ son los eventos de éxito y fracaso (respectivamente) en el primer ensayo. Estos eventos son mutuamente excluyentes y exhaustivos; dividen el espacio de resultados.
$\begin{align} \mathsf E(X) & = \sum_{x=0}^\infty x\mathsf P(X=x) & \text{por definición de esperanza} \\[1ex] & = \sum_{x=0}^\infty x\,\big(\mathsf P(X=x\cap A_1)+\mathsf P(X=x\cap A_2)\big) & \text{Ley de la Probabilidad Total} \\[1ex] & = \sum_{x=0}^\infty x\,\big(\mathsf P(X=x\mid A_1)\mathsf P(A_1)+\mathsf P(X=x\mid A_2)\mathsf P(A_2)\big) & \text{por Probabilidad Condicional} \\[1ex] & = \mathsf P(A_1)\sum_{x=0}^\infty x\,\mathsf P(X=x\mid A_1)+\mathsf P(A_2)\sum_{x=0}^\infty x\, \mathsf P(X=x\mid A_2) & \text{Rearreglando} \\[1ex] & = \mathsf P(A_1)\,\mathsf E(X\mid A_1)+\mathsf P(A_2)\,\mathsf E(X\mid A_2) & \text{por definición de esperanza} \end{align}$
Este resultado se llama la Ley de la Esperanza Iterada.
Observa que $A_1$ es el evento en el que $X=0$, y que $A_2$ es el evento en el que $X>0$.
$\begin{align} \mathsf E(X) & = \mathsf P(X=0)\,\mathsf E(X\mid X=0) + \mathsf P(X>0)\,\mathsf E(X\mid X>0) & \text{Ley de la Esperanza Iterada} \\[1ex] & = p\,\mathsf E(X\mid X=0) + (1-p)\,\mathsf E(X\mid X>0) & \mathsf P(X=0)=p \\[1ex] & = p\cdot 0 + (1-p)\,\mathsf E(X\mid X>0) & \mathsf E(X\mid X=0)=0 \\[1ex] & = p\cdot 0 + (1-p)\,(1+\mathsf E(X)) & \mathsf E(X\mid X>0)=1+\mathsf E(X) \\[0ex] && \text{porque la distribución es sin memoria.} \\[2ex] \therefore \mathsf E(X) & = \frac{1-p}p \end{align}$
¿por qué $\mathsf E(X\mid A_2)=1+\mathsf E(X)$ ? ¿La falta de memoria significa 'los siguientes pasos son completamente independientes del paso anterior'?
Sí, y eso significa que el número esperado de fracasos después del ensayo $n^\text{th}$ y antes del próximo éxito es el mismo que el número esperado de fracasos después del ensayo $0^\text{th}$ y antes del primer éxito, para cualquier $n$.
$\mathsf E(X\mid X>0)$ es el conteo esperado de fracasos antes del primer éxito dado que el primer ensayo fue un fracaso. Eso será el primer ensayo más el conteo esperado de fracasos después de ese primer ensayo y antes del primer éxito. Es decir: $1+\mathsf E(X)$.