Estou Construindo Protocolos de Agente para Agente: Aqui Está a Fricção

📖 13 min read•2,492 words•Updated Mar 31, 2026

Certo, pessoal, Leo Grant aqui, de volta ao agntdev.com, e hoje estamos mergulhando de cabeça em algo que tem gerado muito burburinho nos meus canais do Slack e nas sessões de programação noturnas: a surpreendente complexidade do que parece ser um simples processo de “construção” quando se trata de agentes autônomos. Especificamente, quero falar sobre os pontos de atrito muitas vezes negligenciados na construção de protocolos de comunicação entre agentes. Não se trata apenas de fazer dois programas se comunicarem; trata-se de fazer com que dois agentes, cada um com seus próprios objetivos e estados internos, interajam de forma significativa sem comprometer sua simulação cuidadosamente elaborada ou, pior, uma implantação no mundo real.

Eu me lembro de que alguns meses atrás, estava ajudando uma pequena startup que estava tentando coordenar uma frota de drones de entrega. A abordagem inicial deles era bem padrão: um orquestrador central enviando comandos. Mas eles rapidamente encontraram um obstáculo. A latência, o ponto único de falha e o volume absoluto de tomadas de decisão que o sistema central precisava gerenciar se tornaram um pesadelo. A solução óbvia? Descentralizar. Deixar os drones se comunicarem entre si. Simples, certo? Haha. Oh, Leo, você doce garoto de verão.

A Ilusão da Comunicação Simples entre Agentes

Quando você pensa pela primeira vez em agentes se comunicando, sua mente provavelmente salta para REST APIs, gRPC, talvez algumas filas de mensagens. E sim, essas são as mecânicas subjacentes. Mas para agentes, especialmente aqueles que operam com algum grau de autonomia, o “o quê” e “o como” dessa comunicação são profundamente diferentes da interação típica cliente-servidor.

Pense nisso: uma chamada de API padrão geralmente implica um esquema conhecido, uma resposta previsível e um ciclo claro de solicitação-resposta. Um agente, no entanto, pode não ter sempre uma “solicitação” no sentido tradicional. Ele pode precisar transmitir informações, escutar eventos específicos, negociar um recurso ou até mesmo inferir a intenção das ações de outro agente. Isso não se trata apenas de sintaxe; é sobre semântica, contexto e a compreensão compartilhada entre duas entidades que podem não ter sido projetadas pela mesma pessoa, muito menos com os exatos mesmos modelos internos.

Meu colega da startup de drones, vamos chamá-lo de Mark, inicialmente tentou apenas expor endpoints em cada drone. O Drone A precisava saber se o Drone B ia pousar na mesma plataforma. Então, o Drone A faria uma chamada para /api/v1/drones/{id}/landing_status. Parece bom à primeira vista. Mas e se o Drone B estivesse em uma manobra crítica e não pudesse responder imediatamente? E se seu estado interno fosse ambíguo? E se precisasse perguntar ao Drone A por esclarecimento antes de se comprometer com um status? De repente, essa simples chamada de API se transforma em uma conversa de múltiplas voltas, cheia de potenciais impasses e más interpretações.

Além de Solicitação/Resposta: A Necessidade de Protocolos Conversacionais

É aqui que os protocolos de rede padrão começam a falhar e precisamos pensar em protocolos conversacionais. Não se trata apenas de troca de dados; trata-se de troca de informações no contexto de objetivos em andamento e potenciais conflitos.

Vamos dar uma olhada em um exemplo básico. Imagine dois agentes, Agente A e Agente B, tentando coordenar uma tarefa. O Agente A precisa pegar um item, e o Agente B precisa transportá-lo. O Agente A precisa sinalizar que está pronto, e o Agente B precisa confirmar o recebimento. Se usarmos apenas solicitações POST simples, pode parecer assim:


// Agente A (pegando)
function signalReadyForPickup(itemId) {
 fetch('http://agent-b.com/api/v1/pickup_ready', {
 method: 'POST',
 headers: { 'Content-Type': 'application/json' },
 body: JSON.stringify({ item_id: itemId })
 })
 .then(response => response.json())
 .then(data => {
 if (data.status === 'ack') {
 console.log(`Agente B reconheceu o recebimento do pedido para ${itemId}.`);
 // Prosseguir com a coleta real
 } else {
 console.error(`Agente B não reconheceu o pedido de coleta: ${data.reason}`);
 // Lidar com tentativa de novo ou plano alternativo
 }
 })
 .catch(error => console.error('Erro ao sinalizar pronto:', error));
}

// Agente B (transportando)
// (Endpoint para /api/v1/pickup_ready)
app.post('/api/v1/pickup_ready', (req, res) => {
 const itemId = req.body.item_id;
 console.log(`Recebido sinal de pronto para coleta do ${itemId}.`);
 // Verificar estado interno, disponibilidade, etc.
 if (canTransport(itemId)) {
 res.json({ status: 'ack' });
 } else {
 res.status(400).json({ status: 'nack', reason: 'Atualmente ocupado' });
 }
});

Isso é um começo. Mas e se canTransport(itemId) levar 5 segundos porque o Agente B precisa consultar um sistema externo ou negociar com outro agente? O Agente A fica na espera. E se o Agente B responder com ‘nack’ devido a ‘Atualmente ocupado’? O Agente A agora precisa interpretar isso e decidir seu próximo movimento. Isso não é apenas um código de erro; é uma informação contextual que o Agente A precisa considerar em seu próprio ciclo de tomada de decisão.

É aqui que comecei a empurrar o Mark em direção a algo mais parecido com um diálogo com estado. Precisávamos de um protocolo compartilhado que fosse além da simples solicitação/resposta. Olhamos para uma versão simplificada do FIPA ACL (Agent Communication Language), que define performativos como ‘informar’, ‘solicitar’, ‘concordar’, ‘recusar’, etc. Você não precisa implementar toda a especificação, mas entender a filosofia por trás dela é super útil.

Exemplo Prático: Um Simples Protocolo de Negociação

Vamos aprimorar nosso exemplo de coleta em uma negociação muito básica. O Agente A precisa de uma coleta, o Agente B pode transportar. O Agente A propõe, o Agente B responde, possivelmente com uma contraproposta ou uma recusa.

Primeiro, precisamos de uma estrutura de mensagem comum. Algo que delineie claramente o ato comunicativo (o “performativo”) do conteúdo.


// Estrutura de mensagem comum
{
 "sender_id": "agent-A",
 "receiver_id": "agent-B",
 "performative": "propose", // ex: propor, aceitar, recusar, informar, consultar
 "conversation_id": "pickup-task-XYZ", // Para vincular mensagens em um diálogo
 "reply_to": "message-ABC", // Se esta for uma resposta a uma mensagem específica
 "content": {
 // O payload real específico para o performativo
 "task_type": "item_pickup",
 "item_id": "widget-123",
 "location": "warehouse-bay-3",
 "pickup_window": { "start": "2026-03-28T10:00:00Z", "end": "2026-03-28T10:30:00Z" }
 }
}

Agora, vamos pensar no fluxo. O Agente A quer propor uma coleta. O Agente B recebe. O Agente B avalia. O Agente B responde. Cada passo é uma mensagem com um performativo específico.


// Lado do Agente A (simplificado)
class AgentA {
 constructor(id, commService) {
 this.id = id;
 this.commService = commService;
 this.outstandingConversations = new Map(); // Armazenar estado para diálogos em andamento
 }

 async initiatePickup(itemId, location, window) {
 const conversationId = `pickup-${this.id}-${Date.now()}`;
 const message = {
 sender_id: this.id,
 receiver_id: 'agent-B',
 performative: 'propose',
 conversation_id: conversationId,
 content: {
 task_type: 'item_pickup',
 item_id: itemId,
 location: location,
 pickup_window: window
 }
 };

 this.outstandingConversations.set(conversationId, {
 status: 'proposed',
 itemId: itemId,
 expectedReply: ['accept', 'refuse', 'propose_counter']
 });

 console.log(`Agente A: Propondo coleta para ${itemId}. ID da Conversa: ${conversationId}`);
 await this.commService.sendMessage(message);
 }

 // Este método seria chamado pelo commService quando uma mensagem para o Agente A chegar
 async handleIncomingMessage(message) {
 const { sender_id, performative, conversation_id, content } = message;

 if (this.outstandingConversations.has(conversation_id)) {
 const convoState = this.outstandingConversations.get(conversation_id);

 if (performative === 'accept' && convoState.expectedReply.includes('accept')) {
 console.log(`Agente A: Agente B aceitou a coleta de ${convoState.itemId}!`);
 this.outstandingConversations.delete(conversation_id); // Diálogo completo
 // Prosseguir com a execução da tarefa
 } else if (performative === 'refuse' && convoState.expectedReply.includes('refuse')) {
 console.log(`Agente A: Agente B recusou a coleta de ${convoState.itemId}. Razão: ${content.reason}`);
 this.outstandingConversations.delete(conversation_id); // Diálogo completo
 // Iniciar plano alternativo
 } else if (performative === 'propose_counter' && convoState.expectedReply.includes('propose_counter')) {
 console.log(`Agente A: Agente B contra-propôs uma nova proposta para ${convoState.itemId}. Nova janela: ${content.pickup_window.start}`);
 // Avaliar contraproposta, potencialmente aceitar ou fazer outra contraproposta
 // Para simplificar, vamos apenas aceitar por enquanto
 const acceptMessage = {
 sender_id: this.id,
 receiver_id: sender_id,
 performative: 'accept',
 conversation_id: conversation_id,
 reply_to: message.message_id, // presumindo que as mensagens tenham IDs únicos
 content: { task_type: 'item_pickup', item_id: convoState.itemId }
 };
 await this.commService.sendMessage(acceptMessage);
 this.outstandingConversations.set(conversation_id, { status: 'accepted_counter', itemId: convoState.itemId, expectedReply: [] });
 } else {
 console.warn(`Agente A: Performativo inesperado '${performative}' para a conversa ${conversation_id}.`);
 }
 } else {
 console.log(`Agente A: Mensagem não solicitada recebida para a conversa ${conversation_id}.`);
 // Lidar com propostas iniciais de outros agentes ou simplesmente ignorar se não estiver interessado
 }
 }
}

Isso ainda é uma visão simplificada, é claro. O commService lidaria com o transporte real da rede (WebSockets, RabbitMQ, etc.) e roteando mensagens para a instância correta do agente. O importante é que cada agente mantenha o estado sobre suas conversas em andamento, esperando tipos específicos de respostas com base na fase atual do diálogo. Isso é um grande avanço em relação às chamadas de API do tipo fogo-e-esquece.

A beleza dessa abordagem é que torna a comunicação explícita. Quando Mark implementou uma versão simplificada disso para seus drones, ele começou a ver menos colisões e uma alocação de tarefas mais eficiente. Um drone podia explicitamente ‘propor’ um local de pouso, e outro drone podia ‘recusar’ com uma justificativa, ou ‘propor_contraproposta’ com uma alternativa. O sistema ganhou resiliência e clareza.

Os Custos Ocultos: Ontologias Compartilhadas e Confiança

Mover-se para protocolos de conversa expõe dois desafios mais profundos que costumam ser varridos para debaixo do tapete:

1. Ontologias Compartilhadas (ou a falta delas)

Para que os agentes se comuniquem de forma significativa, eles precisam de um entendimento compartilhado dos termos que estão usando. O que significa “janeladecoleta”? É UTC? Hora local? “localização” é uma coordenada GPS, um geohash ou um número de baía? Se o Agente A usa “item_id” e o Agente B espera “product_sku”, você tem um problema. Esse é o problema da “Torre de Babel” para os agentes.

Em um sistema rigidamente controlado com agentes construídos pela mesma equipe, você pode impor um modelo de dados comum. Mas em sistemas multiagentes mais abertos, pode ser necessário construir camadas de tradução ou concordar com uma representação canônica para conceitos críticos. Isso não é apenas um problema técnico; é um problema organizacional, exigindo concordância entre diferentes equipes ou até diferentes organizações.

Os drones de Mark, inicialmente, tinham definições ligeiramente diferentes para “altitude.” Um usava metros acima do nível do mar, outro metros acima do nível do solo. Um erro simples. Potencial catastrófico ao coordenar rotas de voo. Tivemos que impor uma definição única e inequívoca em seu esquema de comunicação compartilhada.

2. Confiança e Reputação

Quando os agentes estão tomando decisões com base nas informações recebidas de outros agentes, como eles sabem se essa informação é confiável? Se o Agente B recusa consistentemente tarefas sem uma boa razão, o Agente A deve continuar a propor tarefas para ele? É aqui que entram em cena conceitos de confiança, reputação e até medidas punitivas (como colocar um agente em uma lista negra temporária).

Construir um sistema de confiança eficiente é incrivelmente complexo e geralmente requer um componente dedicado dentro da sua arquitetura de agentes. Isso pode envolver:

Rastrear o desempenho histórico de outros agentes.
Verificar alegações (se possível) por meios independentes.
Permitir que os agentes avaliem ou forneçam feedback sobre outros.
Implementar assinaturas criptográficas para garantir a autenticidade das mensagens.

Para os drones de Mark, começamos com um sistema de reputação muito básico: se um drone reportava consistentemente estar “ocupado”, mas depois era observado inativo, sua pontuação de confiabilidade cairia, e outros drones priorizariam perguntar para drones que estavam menos “ocupados” primeiro. É simples, mas é um passo em direção a sistemas descentralizados que se auto-corretam.

Resumo Ação para sua Próxima Construção de Agentes

Se você está construindo sistemas com múltiplos agentes autônomos, não jogue apenas endpoints REST no problema e chame isso de dia. Pense mais profundamente. Aqui estão algumas recomendações:

Desenhe Protocolos de Conversa, Não Apenas APIs: Mapeie os fluxos típicos de diálogo entre seus agentes. Quais são os estados? Quais são os performativos esperados em cada estágio? Use conceitos como conversation_id e reply_to para estruturar suas mensagens.
- Comece simples: Você não precisa de uma implementação completa do FIPA ACL. Apenas defina um conjunto central de performativos relevantes para seu domínio (por exemplo, propor, aceitar, recusar, informar, consultar).
- Comunicação com estado: Assegure que cada agente possa rastrear o estado de seus diálogos em andamento.
Estabeleça uma Ontologia Compartilhada: Antes de escrever uma linha de código de comunicação, defina os conceitos críticos e seu significado preciso para seus agentes. Documente rigorosamente. Isso pode significar:
- Modelos de dados canônicos: Concorde sobre uma única representação para entidades principais (por exemplo, itens, locais, janelas de tempo).
- Validação de esquema: Use ferramentas como JSON Schema para validar mensagens de entrada e saída contra sua ontologia acordada.
Considere Confiança e Reputação Desde o Começo: Mesmo em sistemas simples, os agentes irão depender uns dos outros. Pense sobre como um agente avalia a confiabilidade das informações recebidas. Isso pode ser tão básico quanto:
- Pontuações de confiabilidade: Um contador simples para interações bem-sucedidas em relação a falhas.
- Mecanismos de reconhecimento: Exigir reconhecimentos explícitos para mensagens críticas.
Escolha o Transporte Subjacente Certo: Embora o protocolo de nível superior defina a conversa, o transporte de nível inferior importa. Para agentes altamente interativos, considere brokers de mensagens (como RabbitMQ, Kafka) ou WebSockets para comunicação persistente e de baixa latência sobre o tradicional polling HTTP.
Teste, Teste, Teste (e Simule!): Protocolos de comunicação de agentes são complexos. Você precisa de testes sólidos, especialmente testes de integração que simulem fluxos de conversa completos. Para sistemas multiagentes, ambientes de simulação são seus melhores amigos para descobrir padrões de interação inesperados e deadlocks.

Construir agentes que se comuniquem eficazmente é uma das partes mais desafiadoras, mas recompensadoras, do desenvolvimento de agentes. Isso te empurra além dos paradigmas típicos de engenharia de software e para o fascinante mundo da inteligência distribuída e comportamento emergente. Portanto, da próxima vez que você estiver esboçando sua arquitetura de agentes, reserve um momento. Não pense apenas sobre quais dados precisam ser movidos; pense sobre a conversa que precisa acontecer. Seu eu futuro (e seus logs de depuração) vão agradecer.

🕒 Published: March 31, 2026

✍️

Written by Jake Chen

AI technology writer and researcher.

Learn more →