OpenReplay Logo
12k
12k

Calculadora de custo de API LLM

Estime e compare os custos de API de LLM entre GPT, Claude, Gemini e Llama. Cole um prompt para contar os tokens automaticamente ou digite os números, depois veja o custo por chamada e em escala.

Em modelos de raciocínio, conte aqui os tokens de pensamento — eles são cobrados como tokens de saída.

Processado localmente

Custo para Claude Opus 4.8

$0.00
Custo de entrada / chamada
$0.00
Custo de saída / chamada
$0.00
Total / chamada
$0.00
Total / 1 requisição
$0.00
Por 1 mil requisições
$0.00
Por 1 milhão de requisições

Comparar todos os modelos

Preços atualizados em June 2026
Modelo Entrada $/1M Saída $/1M Custo / chamada Custo / N req

List prices in USD per 1 million tokens, standard synchronous tier. Providers change pricing and ship new models often, so treat these as a starting point and confirm against the provider's pricing page before budgeting. See priceNote for context-length tiers, long-context surcharges, cache-hit rates, and thinking-mode differences. Chinese providers (DeepSeek, Moonshot/Kimi, Qwen, GLM) are shown at their international USD rates. Token counts are exact for OpenAI (tiktoken); all other providers are approximate (no official public client-side tokenizer). Note: Anthropic models 4.7+ (Opus 4.8, Fable 5) use a newer tokenizer that yields ~30% more tokens than 4.5/4.6 — reflected in charsPerToken.

Sobre esta ferramenta

Toda API de LLM cobra por token, com tarifas separadas para entrada (prompt) e saída (completion), de modo que o custo de uma funcionalidade depende de quantos tokens fluem em cada direção e da frequência com que você chama o modelo. Esta calculadora transforma esses números em um custo por chamada e os projeta para milhares ou milhões de requisições, depois alinha cada modelo lado a lado para que você veja quanto a mesma carga de trabalho custa em cada um.

Informe diretamente os tokens de entrada e de saída, ou cole seu prompt para contar seus tokens com o tokenizador compartilhado — exato para a OpenAI, estimado para outros provedores. Os preços são tarifas de tabela por milhão de tokens, e a data em que foram atualizados pela última vez é exibida acima da tabela de comparação; como os provedores mudam os preços e lançam novos modelos com frequência, trate os totais como uma estimativa bem fundamentada e confirme com o provedor antes de comprometer um orçamento.

Os preços de tabela podem excluir descontos por volume, a tarifação de entrada em cache e os níveis de processamento em lote. Tudo é calculado localmente no seu navegador.

Perguntas frequentes

Como o custo é calculado?

Os tokens de entrada vezes o preço de entrada do modelo, mais os tokens de saída vezes seu preço de saída, cada um proporcional à tarifa de tabela por milhão de tokens. O total por chamada é a soma, e as projeções simplesmente multiplicam esse valor pelo seu volume de requisições.

Por que entrada e saída têm preços diferentes?

Gerar a saída é mais intensivo em computação do que ler a entrada, então a maioria dos provedores cobra mais — muitas vezes várias vezes mais — por token de saída do que por token de entrada. É por isso que um modelo que retorna respostas longas pode custar muito mais do que seu preço de entrada sozinho sugere.

Esses preços estão atualizados?

Eles refletem os preços de tabela publicados na data exibida acima da tabela, armazenados em um único lugar que atualizamos periodicamente. Os provedores ajustam os preços e lançam novos modelos com frequência, e descontos, tarifas de entrada em cache e níveis de processamento em lote não estão incluídos, então verifique com o provedor antes de confiar em um valor.

E a tarifação em cache ou em lote?

Muitos provedores oferecem tarifas mais baratas para prefixos de prompt em cache ou trabalhos em lote assíncronos. Esta calculadora usa as tarifas padrão em tempo real, então, se você usar esses níveis, seu custo real será inferior ao exibido.