El término "no paramétrico" es un poco equívoco, ya que generalmente estos modelos/algoritmos se definen por tener un número de parámetros que aumenta a medida que aumenta el tamaño de la muestra. El hecho de que una RF haga esto o no depende de cómo funcione el algoritmo de división/de poda del árbol. Si no se realiza ninguna poda, y la división se basa en las reglas del tamaño de la muestra (por ejemplo, dividir un nodo si contiene más de 10 puntos de datos), entonces un RF sería no paramétrico.
Sin embargo, hay otros métodos "paramétricos", como la regresión, que se convierten en algo "no paramétrico" cuando se añaden los métodos de selección de características. En mi opinión, el proceso de selección de características para la regresión lineal/logística es muy similar a los métodos basados en árboles. Creo que gran parte de lo que ha hecho la comunidad de ML es rellenar el espacio de cómo convertir un conjunto de "entradas brutas" en "entradas de regresión". A nivel básico, un árbol de regresión sigue siendo un "modelo lineal", pero con un conjunto transformado de entradas. Los splines también están en un grupo similar.
En cuanto a los supuestos, los modelos de ML no están "libres de supuestos". Algunas de las suposiciones de ML serían cosas como "el error de validación es similar al error de un caso nuevo", ¡eso es una suposición sobre la distribución de los errores!
La elección de cómo medir el "error" es también una suposición sobre la distribución de los errores; por ejemplo, utilizar el error al cuadrado frente al error absoluto como medida que se está minimizando (por ejemplo, la distribución normal frente a la de Laplace). La decisión de tratar o eliminar los "valores atípicos" también es una suposición de distribución (por ejemplo, distribución normal o de Cauchy).
En cambio, creo que la salida de ML no se molesta en comprobar si las "suposiciones subyacentes" son verdaderas, sino que se basa más en comprobar si las salidas "parecen buenas/razonables" (similar a la cultura de pruebas de TI... ¿entrada+proceso=buena salida?). Esto suele ser mejor porque los "supuestos de modelización" (por ejemplo, que los términos de error se distribuyan normalmente) pueden no caracterizar de forma exclusiva cualquier algoritmo. Además, las predicciones podrían no ser tan diferentes si cambiamos los supuestos (por ejemplo, normal frente a t con 30 grados de libertad).
Sin embargo, vemos que la comunidad de ML ha descubierto muchos de los problemas prácticos que los estadísticos conocían: el equilibrio entre el sesgo y la varianza, la necesidad de grandes conjuntos de datos para ajustar modelos complejos (es decir, la regresión con n<p es un problema de modelización difícil), los problemas del dragado de datos (sobreajuste) frente a la omisión de factores clave (infraajuste).
Un aspecto que creo que ha mejorado el ML es la noción de reproducibilidad: un buen modelo debe funcionar en múltiples conjuntos de datos. La idea de probar-entrenar-validar es una forma útil de llevar este concepto al nivel práctico.