Lo que está graficando es un función de distribución acumulativa ("cdf"). Si las muestras de datos se generaron a partir de una función de densidad de probabilidad y sabes cuál es esa función, puedes encontrar la fórmula de la cdf calculando su integral. Si no es así, tendrás que hacer algún ajuste empírico de la curva si quieres una fórmula para predecir Y a partir de X.
(Antes de continuar, si todo lo que quieres hacer es predecir el valor Y a partir de un valor X, no tienes que calcular necesariamente una fórmula matemática de forma cerrada; si sigues las instrucciones de la "Parte 2" de la respuesta de Avraham más arriba conseguirás lo que quieres. Para ser más específico, digamos que tus 50000 puntos de datos están en las filas 1 a 50000 de la columna A, y que quieres el porcentaje que está por encima de (digamos) X=6540, entonces simplemente escribe =COUNTIF(A1:A50000, ">6540") / COUNT(A1:A50000)
en cualquier celda para obtener el porcentaje de los puntos de datos que son mayores que ese valor de X).
Bien, digamos que quieres ajustar una fórmula simple a estos datos. Lo que estás buscando es algún tipo de función sigmoidea La mayoría de las funciones de distribución acumulativa tienen esta forma. Es difícil saber exactamente qué tipo de sigmoide sin saber de dónde proceden los datos, pero para facilitar el cálculo, vamos a utilizar la forma general de la sigmoide que se ve en la parte superior del artículo de la Wikipedia sobre la función sigmoide, que tiene este aspecto en Excel (intente trazarla con valores de X que van de -6 a 6):
=1/(1+EXP(-X))
Para que coincida con su gráfico, queremos darle la vuelta. Además, añadiremos dos nuevas variables. Una la llamaremos A, y controla la nitidez de la caída (los valores mayores que 1 son más nítidos; los valores decimales positivos más cercanos a 0 son más planos. Probablemente necesitarás un valor bastante cercano a cero). Otro valor que llamaremos B es la traslación horizontal (cuánto se desplaza el gráfico hacia la izquierda o la derecha... probablemente debería ser un número bastante grande para que se ajuste a tus datos). La fórmula resultante es:
=(1-(1/(1+EXP(-((X-B)*A)))))
Llegados a este punto, se trata de ajustar los parámetros, es decir, de averiguar qué valores de A y B minimizan la suma de las diferencias al cuadrado entre sus datos y la salida de esta función. Puede hacerlo con Excel a través del plugin Solver, o con Eureqa Desktop. Aunque este método probablemente no le dará una función exacta para la fdc, debería darle un ajuste bastante bueno.