Параметры n_batch n_ubatch

Опытным путём выяснил, что увеличение n_batch больше чем в 2 раза от n_ubatch только увеличивает время обработки запроса, то есть большой num_batch увеличивает потребление памяти, но не ускоряет, а замедляет работу llm.

llama_context: n_batch = 2048
llama_context: n_ubatch = 1024

Теги: ai, llm, ollama