Je résous les problèmes de mes flux de travail agentiques : Voici comment

🌐🇩🇪 Deutsch 🇫🇷 Français 🇫🇷 Français 🇪🇸 Español 🇺🇸 English

📖 10 min read•1,950 words•Updated Mar 26, 2026

Salut tout le monde, Leo ici de agntdev.com. J’espère que vous passez tous une semaine productive !

Aujourd’hui, je veux explorer quelque chose qui m’occupe beaucoup l’esprit ces derniers temps, surtout alors que je touche à quelques projets personnels impliquant des flux de travail agentiques plus complexes et à étapes multiples. Nous parlons beaucoup de la création d’agents, des LLM eux-mêmes, et des choses intéressantes qu’ils peuvent faire. Mais qu’en est-il de l’aspect moins glamour, mais absolument crucial, de s’assurer que nos agents fonctionnent réellement de manière fiable et efficace au fil du temps ?

Plus précisément, je parle de l’observabilité des agents. Ce n’est pas seulement une question de journalisation ; il s’agit de vraiment comprendre ce que fait votre agent, pourquoi il le fait, et de détecter les problèmes avant qu’ils ne dégénèrent. Dans un monde où les agents interagissent avec des API externes, prennent des décisions basées sur des entrées dynamiques, et peuvent potentiellement fonctionner pendant de longues périodes, voler à l’aveugle est une recette pour le désastre. J’ai appris cela à mes dépens, comme je vais l’expliquer.

Le « Bug Mystérieux » Qui M’a Tout Appris

Il y a quelques mois, je développais un agent d’assistant personnel. Appelons-le « Projet Chronos. » Son rôle était de surveiller mon calendrier, les flux d’actualités, et des canaux Slack spécifiques, puis de suggérer proactivement des horaires de réunion, de résumer les mises à jour clés, ou même de rédiger des réponses initiales à des demandes courantes. Assez classique en surface.

Je l’ai construit, testé avec quelques scénarios, et il semblait fonctionner correctement. Je l’ai configuré pour fonctionner pendant la nuit, pensant que je me réveillerais avec un résumé parfaitement organisé. Au lieu de cela, je me suis réveillé avec… rien. Ou plutôt, un résumé partiel qui s’est arrêté abruptement, suivi d’un message d’erreur cryptique dans mes journaux système qui indiquait essentiellement « quelque chose a échoué. »

Déboguer cela a été un cauchemar. Chronos était censé faire plusieurs choses : récupérer les événements du calendrier, interroger une API d’actualités, atteindre une API Slack, traiter les données, puis générer un résumé. Quelle étape a échoué ? Pourquoi ? A-t-il même tenté toutes les étapes ? Était-ce une limite de taux de l’API ? Un prompt mal formé ? Un délai d’attente ? Je n’en avais aucune idée.

Ma journalisation initiale était basique : « Étape X commencée, » « Étape Y complétée, » puis le résultat final ou une erreur. Cela n’était pas suffisant. C’était comme essayer de diagnostiquer un problème de voiture en sachant juste qu’elle a démarré puis s’est arrêtée, sans aucune information sur la température du moteur, la pression du carburant, ou des défauts électriques.

Cette expérience a bien souligné le point : si vous êtes sérieux au sujet du développement d’agents, vous avez besoin d’une observabilité solide dès le premier jour. Ce n’est pas une réflexion après coup ; c’est un composant fondamental.

Au-delà de la Journalisation Basique : Que Signifie l’« Observabilité » pour les Agents ?

Pour moi, l’observabilité des agents se décompose en quelques domaines clés, chacun fournissant une perspective différente sur le fonctionnement de votre agent :

1. Traçage d’Exécution Étape par Étape

C’est le plus critique. Vous devez savoir exactement ce que fait votre agent à chaque étape de son exécution. Pensez-y comme une piste de miettes détaillée. Pour le Projet Chronos, j’avais besoin de voir :

Quand il a commencé à récupérer les événements du calendrier.
Les paramètres qu’il a utilisés pour l’appel d’API calendrier (par exemple, la plage de dates).
La réponse brute de l’API calendrier.
Comment il a traité cette réponse.
Le prompt exact qu’il a envoyé au LLM pour résumer les informations du calendrier.
La réponse du LLM.
Tous les outils qu’il a appelés, avec leurs entrées et sorties.
Les messages d’erreur, pas seulement « quelque chose a échoué, » mais une erreur spécifique avec contexte (par exemple, « L’API calendrier a retourné 401 Non autorisé pour l’utilisateur X »).

Ce niveau de détail est inestimable pour recréer les problèmes et comprendre les points de décision. Mes journaux initiaux disaient juste « Récupération des données du calendrier… » et ensuite « Résumé des données du calendrier… » sans rien entre les deux. Pas très utile lorsque la récupération des données a échoué silencieusement.

2. Suivi des Prompts et Réponses

Le LLM est le cerveau de votre agent. Si vous ne savez pas quels prompts il reçoit et quelles réponses il donne, vous volez à l’aveugle. Cela inclut :

Le prompt complet envoyé au LLM (système, utilisateur, et toute description d’appel de fonction).
La température, top_p, et d’autres paramètres de génération.
La réponse brute du LLM, y compris les appels d’outils qu’il a décidé de faire.
Utilisation des tokens (entrée, sortie, total) pour le suivi des coûts et l’analyse des performances.

C’est crucial pour l’ingénierie des prompts. Si un agent donne des réponses absurdes, voir le prompt exact qu’il a reçu vous aide à déterminer si le contexte d’entrée était incorrect, ou si le prompt lui-même était mal structuré.

3. Surveillance des Appels d’Outils

Les agents interagissent souvent avec des outils ou des APIs externes. Chaque interaction est un point potentiel de défaillance ou de comportement inattendu. Vous devez journaliser :

Quel outil a été appelé.
Les arguments exacts transmis à l’outil.
La sortie brute de l’outil.
Les erreurs retournées par l’outil ou lors de son exécution.

Pour Chronos, s’il a essayé d’appeler l’API Slack pour poster un résumé, j’avais besoin de savoir le canal ciblé, le contenu du message, et si l’API a retourné une erreur 403 Interdite, par exemple. Ma configuration précédente ne me disait que « Tentative de publication sur Slack. »

4. Instantanés d’État

De nombreux agents maintiennent un certain état interne – un bloc-notes, une mémoire, une liste de faits qu’ils ont rassemblés. Capturer périodiquement cet état peut être incroyablement utile pour le débogage. Si un agent reste coincé dans une boucle ou prend une mauvaise décision, voir ses « pensées » internes à différents moments peut révéler où sa compréhension a déraillé.

C’est moins une question de journaliser chaque changement de variable et plus une question de capturer les états clés de prise de décision. Pour Chronos, cela pourrait être « Compréhension actuelle de l’emploi du temps de l’utilisateur, » ou « Points clés tirés des flux d’actualités jusqu’à présent. »

Approches Pratiques : Intégrer l’Observabilité

D’accord, alors comment mettons-nous réellement cela en œuvre sans être submergés par les journaux ? Voici quelques stratégies pratiques et extraits de code.

Stratégie 1 : Journalisation Structurée avec Contexte

Oubliez les déclarations `print()`. Utilisez une bibliothèque de journalisation appropriée (comme le module `logging` de Python). Crucialement, augmentez vos messages de journalisation avec des données structurées (JSON, dictionnaires) plutôt qu’avec de simples chaînes. Cela rend les journaux analysables, recherchables, et beaucoup plus utiles.

Voici un exemple simplifié en Python :


import logging
import json
import uuid
from datetime import datetime

# Configuration de base du logger (dans une vraie application, vous le configureriez de manière plus solide)
logger = logging.getLogger(__name__)
logger.setLevel(logging.INFO)
handler = logging.StreamHandler()
formatter = logging.Formatter('%(levelname)s: %(message)s')
handler.setFormatter(formatter)
logger.addHandler(handler)

def log_agent_step(agent_id: str, step_name: str, status: str, details: dict = None):
 log_data = {
 "timestamp": datetime.now().isoformat(),
 "agent_id": agent_id,
 "step_name": step_name,
 "status": status, # par exemple, "démarré", "terminé", "échec"
 "details": details if details is not None else {}
 }
 logger.info(json.dumps(log_data))

class MyAgent:
 def __init__(self, agent_id: str = None):
 self.agent_id = agent_id if agent_id else str(uuid.uuid4())
 self.memory = [] # Mémoire interne simple

 def _fetch_calendar_events(self, user_id: str, date_range: str):
 log_agent_step(self.agent_id, "fetch_calendar_events", "démarré", 
 {"user_id": user_id, "date_range": date_range})
 try:
 # Simuler un appel API
 if "error" in date_range:
 raise ValueError("Erreur de l'API calendrier simulée")
 
 events = [
 {"title": "Synchronisation d'équipe", "time": "10:00 AM"},
 {"title": "Réunion avec le client", "time": "02:00 PM"}
 ]
 log_agent_step(self.agent_id, "fetch_calendar_events", "terminé", 
 {"num_events": len(events), "data_preview": events[0]})
 self.memory.append(f"Événements du calendrier : {events}")
 return events
 except Exception as e:
 log_agent_step(self.agent_id, "fetch_calendar_events", "échec", 
 {"error": str(e), "traceback": "..."}) # En réalité, capturez le traceback
 raise

 def _summarize_with_llm(self, prompt_text: str):
 log_agent_step(self.agent_id, "summarize_with_llm", "démarré", 
 {"prompt_length": len(prompt_text), "prompt_preview": prompt_text[:100]})
 try:
 # Simuler un appel LLM
 if "fail_llm" in prompt_text:
 raise RuntimeError("Erreur de l'API LLM simulée")
 
 response = f"Résumé LLM de : {prompt_text[:50]}..."
 token_usage = {"input": len(prompt_text) // 4, "output": len(response) // 4}
 log_agent_step(self.agent_id, "summarize_with_llm", "terminé", 
 {"response_length": len(response), "token_usage": token_usage, 
 "llm_response_preview": response[:100]})
 self.memory.append(f"Résumé produit par LLM : {response}")
 return response
 except Exception as e:
 log_agent_step(self.agent_id, "summarize_with_llm", "échec", 
 {"error": str(e), "traceback": "..."})
 raise

 def run_daily_briefing(self, user_id: str):
 log_agent_step(self.agent_id, "run_daily_briefing", "démarré", {"user_id": user_id})
 try:
 calendar_data = self._fetch_calendar_events(user_id, "today")
 news_summary = self._summarize_with_llm("Résumez les principales nouvelles d'aujourd'hui...")
 
 final_briefing_prompt = (
 f"Créez un briefing quotidien basé sur :\n"
 f"Calendrier : {json.dumps(calendar_data)}\n"
 f"Nouvelles : {news_summary}"
 )
 final_briefing = self._summarize_with_llm(final_briefing_prompt)
 
 log_agent_step(self.agent_id, "run_daily_briefing", "terminé", 
 {"final_briefing_length": len(final_briefing)})
 return final_briefing
 except Exception as e:
 log_agent_step(self.agent_id, "run_daily_briefing", "échec", 
 {"error": str(e), "current_memory": self.memory}) # Capturez la mémoire en cas d'échec
 raise

# Exemple d'utilisation
if __name__ == "__main__":
 agent = MyAgent()
 print(f"\n--- Exécution de l'Agent {agent.agent_id} (Cas de succès) ---")
 try:
 briefing = agent.run_daily_briefing("leo_g")
 print(f"Briefing : {briefing[:100]}...")
 except Exception as e:
 print(f"L'exécution de l'agent a échoué : {e}")

 agent_fail = MyAgent()
 print(f"\n--- Exécution de l'Agent {agent_fail.agent_id} (Cas d'échec du calendrier) ---")
 try:
 # Simuler un échec du calendrier en passant "error" dans date_range
 agent_fail._fetch_calendar_events("leo_g", "error_today") 
 except Exception as e:
 print(f"L'exécution de l'agent a échoué comme prévu : {e}")

 agent_llm_fail = MyAgent()
 print(f"\n--- Exécution de l'Agent {agent_llm_fail.agent_id} (Cas d'échec LLM) ---")
 try:
 # Simuler un échec LLM
 agent_llm_fail._summarize_with_llm("fail_llm_please")
 except Exception as e:
 print(f"L'exécution de l'agent a échoué comme prévu : {e}")

Remarquez comment `log_agent_step` capture l’ID de l’agent, le nom de l’étape, le statut et un dictionnaire de détails pertinents. Cela facilite le filtrage des journaux par ID d’agent, le suivi d’une seule exécution, ou la recherche de toutes les étapes “échouées”.

Stratégie 2 : Observabilité centralisée avec une bibliothèque/service dédié

Pour des agents plus complexes ou des environnements de production, vous…

🕒 Published: March 26, 2026

✍️

Written by Jake Chen

AI technology writer and researcher.

Learn more →