Escala Sistemas
Voltar para o Blog
Agentes de IA

Como criar um agente de IA empresarial em 6 passos (sem virar POC eterno)

Todo mundo quer um agente de IA. Poucos chegam à produção sem virar POC eterno. Este é o passo a passo técnico que usamos em projetos reais.

Equipe de Engenharia · Escala Sistemas12 de novembro de 202613 min de leitura
Time discutindo arquitetura de agente de IA no whiteboard

Agente de IA virou palavra da moda em 2025 e virou obrigação em 2026. Mas 8 em cada 10 projetos que vimos começam com muito entusiasmo, chegam a uma demo bonita e param. Não passam disso porque a demo não é o produto. Produto tem integração, tem tratamento de erro, tem observabilidade, tem custo por transação medido.

Este é o roteiro em seis passos que aplicamos quando o objetivo é colocar um agente rodando em produção, atendendo cliente real ou operando processo real.

Passo 1: escopo escrito em uma folha

Antes de qualquer linha de código, responda por escrito:

  • Qual tarefa exata o agente vai executar?
  • Quem é o usuário (cliente externo, colaborador interno, sistema)?
  • Qual é o critério objetivo de sucesso? (Não vale "melhorar experiência". Vale "resolver 60% dos tickets sem escalonar para humano".)
  • Qual é o limite? O que o agente jamais deve fazer?

Se você não consegue escrever isso em uma página, o projeto ainda não está pronto para começar. Volte a conversa.

Passo 2: escolha do modelo (e por que 90% dos casos não pedem GPT-4)

A escolha do modelo é decisão de arquitetura e custo, não de status. Regra prática:

  • Tarefa simples de classificação ou extração: modelo pequeno rodando local (Llama 3.3 8B, Qwen 2.5 7B). Custo próximo de zero.
  • Tarefa média (RAG, resumo, resposta em domínio conhecido): modelo médio (Llama 3.3 70B, Mistral Large) local ou API econômica.
  • Tarefa complexa (raciocínio de múltiplos passos, código, negociação): aí sim, GPT-4 classe, Claude Sonnet ou similar.

Regra de bolso

Comece com o modelo mais barato que passa nos testes. Você sempre pode subir se precisar. Começar caro sem prova é queimar orçamento.

Passo 3: dar conhecimento próprio ao agente (RAG)

LLM sozinho sabe o que está em treino. Não sabe do seu produto, do seu procedimento, do seu contrato. Para o agente responder sobre a sua empresa, ele precisa consultar a sua base. Isso é RAG (Retrieval-Augmented Generation).

Estrutura mínima:

  • Pipeline de ingestão que quebra documentos em pedaços (chunks) e gera embeddings.
  • Banco vetorial (Qdrant, pgvector, Weaviate) que armazena esses embeddings.
  • Na hora da pergunta, o agente busca os 5 a 10 pedaços mais relevantes e monta a resposta com base neles.

Erro comum: subir documento uma vez e esquecer. Base evolui, RAG precisa acompanhar. Automatize a ingestão desde o dia um.

Passo 4: dar ferramentas ao agente (tool use)

Agente que só conversa é chat. Agente que executa ação é agente. Dê ferramentas: consultar API de estoque, criar registro no CRM, disparar e-mail, agendar reunião. Cada ferramenta é uma função descrita para o modelo, que decide quando chamar.

Regra: cada ferramenta precisa ter validação de entrada, tratamento de erro e log estruturado. Ferramenta sem isso vai fazer besteira em produção. Não é hipótese, é certeza.

Passo 5: avaliação (evals) antes de subir para produção

Nunca coloque um agente em produção sem um conjunto de testes automatizados que mede qualidade da resposta. Isso é chamado de evals no jargão.

  • Colete 50 a 200 casos reais representativos.
  • Para cada caso, defina o critério de resposta correta.
  • Rode o agente contra a bateria a cada mudança de prompt, modelo ou base.

Sem evals, você está confiando em vibe. Vibe não escala.

Passo 6: observabilidade em produção

Depois de subir, três coisas precisam ser monitoradas o tempo todo:

  • Custo por conversa (para pegar spike anormal antes de virar fatura ruim).
  • Latência p95 (para pegar degradação antes que cliente reclame).
  • Taxa de fallback para humano (indicador direto de qualidade percebida).

Ferramenta boa para começar: Langfuse, Helicone, ou uma stack própria em Grafana com log estruturado.

Checklist prático

  • Escreva o escopo em uma folha antes de qualquer código.
  • Escolha o modelo mais barato que passa nos testes.
  • Monte RAG com pipeline de reindexação automática.
  • Cada ferramenta tem validação, tratamento de erro e log.
  • Rode evals antes de cada deploy.
  • Observabilidade em produção desde o dia um.

Perguntas frequentes

Quanto tempo leva para colocar um agente em produção?+

Escopo bem definido, projeto típico entre 6 e 10 semanas até o primeiro deploy útil.

Quanto custa manter um agente rodando?+

Depende do volume. Para uso interno moderado, R$ 800 a R$ 3.000/mês (infra + modelo). Para uso em produção com cliente externo, escalonável com transação.

Posso começar sem RAG?+

Pode, se o agente vai apenas classificar ou extrair. Se ele precisa responder sobre a sua empresa, RAG é obrigatório.

Como evito que o agente invente resposta?+

RAG bem feito + prompt que exige citação da fonte + fallback quando não encontra base para responder. Nenhum é suficiente sozinho.

Quer sair da ideia e colocar um agente rodando em 60 dias?

Fazemos a implementação completa: escopo, integração com seus sistemas, testes, deploy e monitoramento. Você recebe agente em produção, não protótipo bonito.

Implementar meu agente

Continue lendo