Riparo i miei flussi di lavoro Agentic: Ecco come

📖 12 min read•2,315 words•Updated Apr 3, 2026

Salve a tutti, Leo qui di agntdev.com. Spero che stiate tutti trascorrendo una settimana produttiva!

Oggi voglio esplorare qualcosa che mi preoccupa molto da un po’ di tempo, soprattutto da quando ho lavorato su alcuni progetti personali che coinvolgono flussi di lavoro agenti più complessi e multi-fase. Parliamo molto della costruzione di agenti, degli LLM stessi e delle cose interessanti che possono fare. Ma che dire dell’aspetto meno glamour, ma assolutamente cruciale, di assicurarsi che i nostri agenti funzionino davvero in modo affidabile ed efficace nel tempo?

Più precisamente, parlo di osservabilità degli agenti. Non si tratta solo di registrazione; si tratta di capire davvero cosa fa il tuo agente, perché lo fa, e di rilevare i problemi prima che diventino ingestibili. In un mondo in cui gli agenti interagiscono con API esterne, prendono decisioni basate su input dinamici e possono potenzialmente funzionare per lunghi periodi, navigare al buio è una ricetta per il disastro. L’ho imparato a mie spese, come spiegherò.

Il “Bug Misterioso” Che Mi Ha Insegnato Tanta Roba

Alcuni mesi fa, stavo sviluppando un agente di assistenza personale. Chiamiamolo “Progetto Chronos.” Il suo compito era monitorare il mio calendario, i miei feed di notizie e specifici canali Slack, per poi proporre proattivamente orari per riunioni, riassumere aggiornamenti chiave, o persino redigere risposte iniziali a domande comuni. Un funzionamento abbastanza standard in superficie.

Lo ho costruito, testato con alcuni scenari e sembrava funzionare correttamente. L’ho impostato per funzionare durante la notte, pensando di svegliarmi con un riassunto perfettamente organizzato. Invece, mi sono svegliato con… niente. O meglio, un riassunto parziale che si è interrotto bruscamente, seguito da un messaggio di errore criptico nei miei registri di sistema che sostanzialmente diceva “qualcosa è fallito.”

Il debug di questa situazione è stato un incubo. Chronos doveva fare diverse cose: recuperare eventi dal calendario, interrogare un’API di notizie, contattare un’API di Slack, elaborare i dati e infine generare un riassunto. Quale passo è fallito? Perché? Ha anche provato tutti i passi? Era un limite di velocità API? Un prompt malformato? Un timeout? Non ne avevo idea.

La mia registrazione iniziale era basilare: “Passo X avviato,” “Passo Y completato,” e poi l’uscita finale o un errore. Non era sufficiente. Era come cercare di diagnosticare un problema dell’auto sapendo solo che si è accesa e poi si è spenta, senza alcuna informazione sulla temperatura del motore, sulla pressione del carburante o sui difetti elettrici.

Questa esperienza ha messo in evidenza un punto: se sei serio riguardo allo sviluppo di agenti, hai bisogno di una buona osservabilità sin dal primo giorno. Non è una riflessione posteriore; è un componente fondamentale.

Oltre la Registrazione Basilare: Cosa Significa “Osservabilità” per gli Agenti?

Per me, l’osservabilità degli agenti si suddivide in alcuni ambiti chiave, ognuno dei quali offre una prospettiva diversa sul funzionamento del tuo agente:

1. Monitoraggio Esecuzione Passo dopo Passo

Questo è il più critico. Devi sapere esattamente cosa fa il tuo agente in ogni fase della sua esecuzione. Pensalo come un filo di Arianna dettagliato. Per il Progetto Chronos, avevo bisogno di vedere:

Quando ha iniziato a recuperare gli eventi dal calendario.
I parametri che ha usato per la chiamata API del calendario (ad esempio, l’intervallo di date).
La risposta grezza dell’API del calendario.
Come ha elaborato questa risposta.
Il prompt esatto che ha inviato all’LLM per riassumere le informazioni del calendario.
La risposta dell’LLM.
Tutti gli strumenti chiamati, con le loro entrate e uscite.
I messaggi di errore, non solo “qualcosa è fallito”, ma un errore specifico con contesto (ad esempio, “L’API del calendario ha restituito 401 Unauthorized per l’utente X”).

Questo livello di dettaglio è inestimabile per ricreare problemi e comprendere i punti di decisione. I miei registri iniziali dicevano solo “Recupero dei dati dal calendario…” poi “Riassunto dei dati dal calendario…” senza niente in mezzo. Non utile quando il recupero dei dati stesso è fallito silenziosamente.

2. Monitoraggio dei Prompt e delle Risposte

L’LLM è il cervello del tuo agente. Se non sai quali prompt riceve e quali risposte dà, stai navigando al buio. Questo include:

Il prompt completo inviato all’LLM (sistema, utente e tutte le descrizioni delle chiamate di funzione).
La temperatura, top_p, e altri parametri di generazione.
La risposta grezza dell’LLM, inclusi tutti gli utilizzi degli strumenti che ha deciso di fare.
Utilizzo dei token (entrata, uscita, totale) per il monitoraggio dei costi e l’analisi delle prestazioni.

Questa è cruciale per l’ingegneria dei prompt. Se un agente fornisce risposte insensate, vedere il prompt esatto che ha ricevuto ti aiuta a fare debug se il contesto di ingresso era errato o se il prompt stesso era mal strutturato.

3. Monitoraggio delle Chiamate agli Strumenti

Gli agenti interagiscono spesso con strumenti esterni o API. Ogni interazione rappresenta un potenziale punto di fallimento o un comportamento inaspettato. Devi registrare:

Quale strumento è stato chiamato.
Gli argomenti esatti passati allo strumento.
L’uscita grezza dello strumento.
Tutti gli errori restituiti dallo strumento o durante la sua esecuzione.

Per Chronos, se stava cercando di chiamare l’API di Slack per postare un riassunto, avevo bisogno di sapere il canale mirato, il contenuto del messaggio, e se l’API restituiva, ad esempio, un errore 403 Forbidden. La mia configurazione precedente si limitava a dirmi “Tentativo di postare su Slack.”

4. Catture di Stato

Molti agenti mantengono uno stato interno – un bloc-notes, una memoria, un elenco di fatti che hanno raccolto. Catturare regolarmente questo stato può essere incredibilmente utile per il debug. Se un agente si trova bloccato in un ciclo o prende una decisione sbagliata, vedere i suoi “pensieri” interni in vari momenti può rivelare dove la sua comprensione è andata fuori strada.

Questo riguarda meno la registrazione di ogni variazione di variabile e più la cattura degli stati chiave di decisione. Per Chronos, potrebbe essere “Comprensione attuale dell’orario dell’utente,” o “Punti chiave dei feed di notizie fino ad ora.”

Approcci Pratici: Integrare l’Osservabilità

Okay, come implementiamo tutto ciò senza affogarci nei registri? Ecco alcune strategie pratiche e frammenti di codice.

Strategia 1: Registrazione Strutturata con Contesto

Dimentica le dichiarazioni `print()`. Usa una libreria di registrazione appropriata (come il modulo `logging` di Python). È cruciale arricchire i tuoi messaggi di registrazione con dati strutturati (JSON, dizionari) piuttosto che con semplici stringhe. Questo rende i registri analizzabili, ricercabili e molto più utili.

Ecco un esempio semplificato in Python:


import logging
import json
import uuid
from datetime import datetime

# Configurazione di base del logger (in una vera applicazione, lo configurereste in modo più solido)
logger = logging.getLogger(__name__)
logger.setLevel(logging.INFO)
handler = logging.StreamHandler()
formatter = logging.Formatter('%(levelname)s: %(message)s')
handler.setFormatter(formatter)
logger.addHandler(handler)

def log_agent_step(agent_id: str, step_name: str, status: str, details: dict = None):
 log_data = {
 "timestamp": datetime.now().isoformat(),
 "agent_id": agent_id,
 "step_name": step_name,
 "status": status, # per esempio, "started", "completed", "failed"
 "details": details if details is not None else {}
 }
 logger.info(json.dumps(log_data))

class MyAgent:
 def __init__(self, agent_id: str = None):
 self.agent_id = agent_id if agent_id else str(uuid.uuid4())
 self.memory = [] # Memoria interna semplice

 def _fetch_calendar_events(self, user_id: str, date_range: str):
 log_agent_step(self.agent_id, "fetch_calendar_events", "started", 
 {"user_id": user_id, "date_range": date_range})
 try:
 # Simula una chiamata API
 if "error" in date_range:
 raise ValueError("Errore simulato dell'API calendario")
 
 events = [
 {"title": "Riunione di team", "time": "10:00 AM"},
 {"title": "Riunione con il cliente", "time": "02:00 PM"}
 ]
 log_agent_step(self.agent_id, "fetch_calendar_events", "completed", 
 {"num_events": len(events), "data_preview": events[0]})
 self.memory.append(f"Eventi del calendario: {events}")
 return events
 except Exception as e:
 log_agent_step(self.agent_id, "fetch_calendar_events", "failed", 
 {"error": str(e), "traceback": "..."}) # Nella vita reale, catturare il traceback
 raise

 def _summarize_with_llm(self, prompt_text: str):
 log_agent_step(self.agent_id, "summarize_with_llm", "started", 
 {"prompt_length": len(prompt_text), "prompt_preview": prompt_text[:100]})
 try:
 # Simula una chiamata LLM
 if "fail_llm" in prompt_text:
 raise RuntimeError("Errore simulato dell'API LLM")
 
 response = f"Riassunto LLM di: {prompt_text[:50]}..."
 token_usage = {"input": len(prompt_text) // 4, "output": len(response) // 4}
 log_agent_step(self.agent_id, "summarize_with_llm", "completed", 
 {"response_length": len(response), "token_usage": token_usage, 
 "llm_response_preview": response[:100]})
 self.memory.append(f"Riassunto prodotto da LLM: {response}")
 return response
 except Exception as e:
 log_agent_step(self.agent_id, "summarize_with_llm", "failed", 
 {"error": str(e), "traceback": "..."})
 raise

 def run_daily_briefing(self, user_id: str):
 log_agent_step(self.agent_id, "run_daily_briefing", "started", {"user_id": user_id})
 try:
 calendar_data = self._fetch_calendar_events(user_id, "today")
 news_summary = self._summarize_with_llm("Riassumere le principali notizie di oggi...")
 
 final_briefing_prompt = (
 f"Creare un briefing quotidiano basato su:\n"
 f"Calendario: {json.dumps(calendar_data)}\n"
 f"Notizie: {news_summary}"
 )
 final_briefing = self._summarize_with_llm(final_briefing_prompt)
 
 log_agent_step(self.agent_id, "run_daily_briefing", "completed", 
 {"final_briefing_length": len(final_briefing)})
 return final_briefing
 except Exception as e:
 log_agent_step(self.agent_id, "run_daily_briefing", "failed", 
 {"error": str(e), "current_memory": self.memory}) # Catturare la memoria in caso di fallimento
 raise

# Esempio di utilizzo
if __name__ == "__main__":
 agent = MyAgent()
 print(f"\n--- Esecuzione dell'agente {agent.agent_id} (Caso di successo) ---")
 try:
 briefing = agent.run_daily_briefing("leo_g")
 print(f"Briefing: {briefing[:100]}...")
 except Exception as e:
 print(f"L'esecuzione dell'agente è fallita: {e}")

 agent_fail = MyAgent()
 print(f"\n--- Esecuzione dell'agente {agent_fail.agent_id} (Caso di fallimento del calendario) ---")
 try:
 # Simula un fallimento del calendario passando "error" in date_range
 agent_fail._fetch_calendar_events("leo_g", "error_today") 
 except Exception as e:
 print(f"L'esecuzione dell'agente è fallita come previsto: {e}")

 agent_llm_fail = MyAgent()
 print(f"\n--- Esecuzione dell'agente {agent_llm_fail.agent_id} (Caso di fallimento LLM) ---")
 try:
 # Simula un fallimento LLM
 agent_llm_fail._summarize_with_llm("fail_llm_please")
 except Exception as e:
 print(f"L'esecuzione dell'agente è fallita come previsto: {e}")

Notate come `log_agent_step` cattura l’ID dell’agente, il nome del passo, lo stato e un dizionario di dettagli pertinenti. Questo facilita il filtraggio dei log per ID dell’agente, il monitoraggio di un’esecuzione singola o la ricerca di tutti i passaggi “falliti”.

Strategia 2 : Osservabilità centralizzata con una libreria/servizio dedicato

Per agenti più complessi o ambienti di produzione, supererete rapidamente il semplice logging di file. È qui che strumenti specializzati brillano. Librerie come `LangSmith` di LangChain (o simili per altri framework) forniscono tracciamento integrato, visualizzazione e debugging per le applicazioni LLM.

Anche se non utilizzate LangChain, il concetto è trasferibile. Potete creare il vostro wrapper attorno all’esecuzione del vostro agente che invia eventi strutturati a un servizio di logging (Datadog, Splunk, stack ELK, o anche un semplice bucket S3 con processamento Lambda). L’essenziale è standardizzare lo schema degli eventi.

Il mio progetto Chronos migliorato utilizza ora una classe `TraceManager` personalizzata che avvolge le operazioni critiche. Questo gestore invia eventi strutturati a un database locale per lo sviluppo e a un servizio di logging nel cloud in produzione. Questo mi consente di vedere un “traccia” completa di ogni esecuzione dell’agente, con passaggi annidati e tutti i dati associati (prompt, risposte, input/output di strumenti, errori).

Strategia 3 : Intercettazione delle chiamate LLM e degli strumenti

Molti SDK LLM vi permettono di configurare callback o interceptors per le chiamate API. Usateli! Invece di registrare manualmente prima e dopo ogni prompt LLM, potete avere un unico interceptor che registra automaticamente:

L’endpoint API esatto utilizzato.
Le intestazioni e il corpo della richiesta (in particolare il prompt).
Le intestazioni e il corpo della risposta (la completamento).
La latenza.
Tutte le eccezioni.

Allo stesso modo, incapsulate le vostre chiamate agli strumenti. Se avete uno strumento `search_web`, il wrapper deve registrare la richiesta di ricerca, il motore di ricerca utilizzato e i N migliori risultati restituiti, così come eventuali errori.

Consigli Azionabili per il Vostro Prossimo Progetto di Agente

Progettate prima per l’Osservabilità: Non consideratela un pensiero tardivo. Pensate a cosa avreste bisogno per il debug prima di scrivere il vostro primo passo dell’agente.
Adottate il Logging Strutturato: Abbandonate `print()` e `console.log()` per il codice di produzione. Utilizzate una libreria di logging appropriata e producete dati strutturati (JSON) per ogni evento significativo.
Registrate Tutto ciò che è Importante: Registrate l’inizio e la fine di ogni passaggio importante, tutti i prompt e le risposte LLM (compresi parametri e conteggi di token), e ogni chiamata agli strumenti con i suoi input e output.
Catturate lo Stato in Caso di Fallimento: Quando un agente fallisce, registrate il suo stato interno o la sua memoria in quel momento. Questo fornisce un contesto cruciale per capire perché ha fallito.
Utilizzate ID Specifici per l’Agente: Assegnate un ID unico a ogni esecuzione dell’agente (ad esempio, un UUID). Questo vi consente di filtrare e seguire facilmente un percorso di esecuzione unico attraverso i vostri log.
Visualizzate le Vostre Tracce: Se possibile, utilizzate o create uno strumento che possa visualizzare questi log strutturati come una sequenza di eventi. Vedere il flusso rende il debug infinitamente più facile rispetto a trattare testo grezzo. LangSmith lo fa magnificamente, ma anche uno script personalizzato può produrre una semplice cronologia HTML.
Monitorate i Costi: L’uso dei token LLM rappresenta un costo diretto. Registratelo. Questo vi aiuta a capire dove va il vostro denaro e a ottimizzare i vostri prompt.

Costruire agenti è entusiasmante, ma costruire agenti affidabili è dove si trova il vero lavoro (e il vero valore). E l’affidabilità inizia con il sapere cosa sta succedendo dietro le quinte. La mia esperienza dolorosa con il progetto Chronos mi ha ben insegnato questa lezione. Non aspettate il vostro “bug misterioso” per convincervi. Iniziate a registrare in modo intelligente già da oggi.

Quali sono le vostre strategie di osservabilità preferite per gli agenti? Scrivete nei commenti o sui social media. Sono sempre interessato a sapere come gli altri affrontano queste sfide!

🕒 Published: April 3, 2026

✍️

Written by Jake Chen

AI technology writer and researcher.

Learn more →