Ollama vs vLLM
Performance ⚡ vs Praticidade 🧰
🔗 Referências

Introdução

Nos últimos anos, a popularização de modelos de linguagem de grande porte (LLMs) trouxe uma explosão de ferramentas para facilitar sua execução e integração em aplicações reais. Entre elas, Ollama e vLLM têm se destacado, mas com propostas distintas. Antes de compararmos, é importante entender o que cada uma faz.

Ollama: uma ferramenta voltada para desenvolvedores que desejam rodar e gerenciar modelos de linguagem localmente de forma simples. Com comandos diretos, possibilita o download, execução e integração de modelos (como Llama, Mistral, Gemma, entre outros) sem a necessidade de configuração complexa. Seu foco é praticidade e acessibilidade. Site oficial

vLLM: uma biblioteca de inferência otimizada para modelos de linguagem, criada com o objetivo de maximizar performance e throughput. É altamente utilizada em contextos de produção em escala, oferecendo recursos como PagedAttention e gerenciamento eficiente de memória, permitindo atender muitas requisições simultâneas com latência reduzida. Repositório GitHub

Resumo de posicionamento: Ollama → praticidade e DX (developer experience) em desktops/laptops. vLLM → performance e escala (APIs com muitos usuários).

Comparativo direto

CritérioOllamavLLM
InstalaçãoCLI simplesSetup técnico (Python/CUDA)
FocoLocal / PoC / EducaçãoProdução em escala
PerformanceBoa para uso pessoalAlta (batching + PagedAttention)
Hardware típicoMac Apple Silicon / RTX 3060–4070RTX 4070–4090, L40S/A100/H100
IntegraçãoFácil com apps locaisOpenAI-compatible server
EscalabilidadeMédiaAlta (autoscaling/cloud)
Ollama brilha na experiência local, com downloads, updates e run em um comando.
vLLM exige CUDA / drivers corretos, mas entrega throughput e latência sólidos sob carga.
Rodar modelos gigantes em laptops requer quantização e compromissos de contexto/batch.

Exemplos práticos

Ollama

curl -fsSL https://ollama.ai/install.sh | sh ollama run llama3.1:8b

Em poucos segundos você baixa e executa um modelo pronto para uso local.

vLLM (API OpenAI-compatível)

pip install vllm python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Meta-Llama-3.1-8B-Instruct \ --tensor-parallel-size 1 \ --max-model-len 8192

Integre com SDKs OpenAI-like e escale com autoscaling/container orchestration.

Especificações de máquina

Mac (Apple Silicon)

  • Melhor experiência com Ollama + Metal. 16 GB → 7–8B (Q4/Q8), 32 GB → 13B confortável.
  • Memória unificada é compartilhada com a GPU; feche apps pesados.

Windows/Linux + NVIDIA (CUDA)

  • Para 7–8B: RTX 3060/4060/4070 (8–12 GB VRAM) com quantização.
  • Para 13B: 4070 Ti/4080 (12–16 GB). 33B 4-bit: 4090 (24 GB) com ajustes.
  • Produção (vLLM): L40S (48 GB), A100/H100 (80 GB) para throughput.

Linux + AMD (ROCm)

  • Ollama com ROCm em evolução; vLLM também avança, mas CUDA ainda domina.

Guia de VRAM (estimativas)

TamanhoQ4 (4-bit)INT8FP16
7–8B4–6 GB8–10 GB14–16 GB
13B7–9 GB12–16 GB26 GB
33–34B18–22 GB32–40 GB70+ GB
70B35–45 GB70–90 GB140+ GB

Contexto grande e batch elevam a VRAM. Planeje folga de 20–40%.

Calculadora rápida de VRAM

Estimativa: VRAM ≈ (parâmetros × bytes/param) × overhead (1.25). Use para ter uma noção inicial.

Informe os dados e clique em Calcular.

Esta é uma aproximação. Contexto (janelas grandes) e batch podem elevar a exigência real consideravelmente.

Referências