Esta cuestión es uno de los principales temas estudiados en complejidad de la prueba . La medida a la que se refiere se llama número de pasos en la prueba o la longitud de la prueba.
El tamaño de una tautología está relacionado con el número de pasos de su prueba más corta, pero esto no significa que el número de pasos sea una función monótona del tamaño de la tautología. Como han mencionado otros, la longitud de una tautología larga puede ser muy corta. No es difícil encontrar tautologías largas arbitrarias que tengan pruebas con un número de pasos constante (es decir, independiente del tamaño de la tautología).
Por otra parte, la tarea de elaborar tautologías con un gran número de pasos no es obvia y está abierta para muchos sistemas de pruebas proposicionales. Obsérvese que se deduce del teorema (constructivo) de la demostración de la exhaustividad que toda tautología de tamaño $s$ tiene una prueba de altura $O(s)$ con $O(2^s)$ pasos y tamaño $O(s2^s)$ .
Tenemos algunos límites inferiores muy débiles para el número máximo de pasos necesarios para una tautología de tamaño $s$ y la cuestión de que este límite superior sea ajustado está muy abierta para el cálculo secuencial y también para la deducción natural, que son esencialmente equivalentes a los sistemas de prueba de estilo Hilbert. El límite es estrecho si eliminamos la regla de corte del cálculo secuencial, es decir, hay tautologías que requieren un número exponencial de pasos.
Puede encontrar más información sobre la relación entre las diferentes medidas estudiadas en la complejidad de las pruebas y la relación entre los diferentes sistemas de pruebas proposicionales consultando encuestas/libros sobre el tema.
Para la lógica de primer orden, hay que tener en cuenta que la lógica de primer orden es indecidible, es decir, dada una fórmula no hay ningún algoritmo para comprobar si es una fórmula válida. Cualquier límite superior computable en el tamaño de la prueba daría un algoritmo para decidir la lógica de primer orden, comprobar todas las pruebas posibles hasta ese tamaño. (Obsérvese que un límite superior en la longitud de la prueba en la deducción natural/el cálculo secuencial dará un límite superior en el tamaño debido a la normalización/eliminación de cortes). Dado que no existe tal algoritmo, no puede haber ninguna cota superior computable.