Опытным путём выяснил, что увеличение n_batch больше чем в 2 раза от n_ubatch только увеличивает время обработки запроса, то есть большой num_batch увеличивает потребление памяти, но не ускоряет, а замедляет работу llm.
llama_context: n_batch = 2048
llama_context: n_ubatch = 1024