Mein Agent-Framework-Auswahl: Aufbau über PoC hinaus

🌐🇩🇪 Deutsch 🇫🇷 Français 🇫🇷 Français 🇪🇸 Español 🇺🇸 English

📖 11 min read•2,104 words•Updated Mar 27, 2026

Hallo zusammen, Leo hier von agntdev.com! Heute möchte ich über etwas sprechen, das seit einigen Wochen in meinem Kopf herumschwirrt, seit ich mich mit der neuesten Reihe von Agenten-Frameworks beschäftigt habe. Genauer gesagt, denke ich an den Aspekt des „Bauens“ – nicht nur daran, einen Agenten zu erstellen, sondern wie wir sie bauen, und die oft übersehenen Implikationen, ein grundlegendes Verfahren dem anderen vorzuziehen. Wir sind über die Phase des „Proof of Concept“ mit Agenten hinaus, und jetzt geht es darum, sie zuverlässig, wartbar und wirklich nützlich zu machen.

Der spezifische Aspekt, in den ich heute eintauche, ist Die verborgenen Kosten von vorgefertigten Agentenkomponenten: Warum es manchmal günstiger ist, eigene zu entwickeln.

Ich weiß, was einige von euch denken: „Leo, das meinst du doch nicht ernst? Wir haben gerade all diese großartigen Tools und Frameworks bekommen, die uns vorgefertigte Speichermodule, Planungs-Komponenten und Tool-Executor anbieten. Warum zur Hölle sollte ich meine eigenen entwickeln?“ Glaubt mir, ich habe mir selbst viele Male genau diese Frage gestellt. Lange Zeit war ich ein glühender Anhänger des Mantras „Nutze das Framework“. Warum das Rad neu erfinden, richtig?

Meine Perspektive begann sich während eines kürzlichen Kundenprojekts zu ändern. Wir entwickelten einen internen Support-Agenten für ein mittelgroßes SaaS-Unternehmen. Die Idee war einfach: ein Agent, der häufige Kundenanfragen beantworten kann, indem er durch Dokumentationen gräbt, den Status von Datenbanken überprüft und sogar Tickets eskaliert, wenn es nötig ist. Wir fingen mit einem der beliebten Python-Agenten-Frameworks an – ihr kennt die, sie versprechen, euch in Minuten einen Agenten zu liefern. Und in den ersten Tagen fühlte es sich wie Magie an.

Wir haben einige vorgefertigte Komponenten für den Speicher (eine Vektordatenbank-Integration), die Planung (eine grundlegende LLM-Kette) und die Ausführung von Tools (Aufrufe einiger interner APIs) zusammengefügt. Die Demo sah großartig aus. Der Kunde war beeindruckt. Wir öffneten eine feierliche Kombucha. Aber dann kam der Test in der realen Welt.

Die Illusion der Geschwindigkeit: Wenn „Schnellstart“ zu „Langsame Fehlersuche“ wird

Die Probleme begannen subtil. Der Agent halluzinierte gelegentlich, was bei LLMs normal ist, aber die Art, wie er halluzinierte, war eigenartig. Er erfand nicht einfach Dinge; er gab selbstbewusst Fakten an, die fast richtig waren, aber leicht abwichen und zogen aus dem, was wie ein Durcheinander aus historischen Interaktionen und aktuellem Kontext aussah. Wir begannen, die Speicherkomponente zu untersuchen.

Das Speichermodul dieses speziellen Frameworks war für eine allgemeine Gesprächsgeschichte konzipiert. Es speicherte Abfolgen, fasste sie zusammen und holte relevante Teile basierend auf semantischer Ähnlichkeit. Klingt gut auf dem Papier, oder? Aber unser Agent musste zwischen der aktuellen Anfrage eines Nutzers, dem historischen Kontext des gleichen Nutzers und dem allgemeinen Wissen aus der Dokumentation unterscheiden. Die vorgefertigte Komponente behandelte alles als einen großen Sack voller Wörter.

Mein Team verbrachte Tage damit, die Parameter dieser „Black Box“-Speicherkomponente anzupassen. Wir änderten die Chunk-Größen, experimentierten mit verschiedenen Einbettungsmodellen und versuchten sogar, Eingaben vor dem Eintritt in den Speicher vorzufiltern. Nichts wirklich funktionierte. Das Problem war nicht die *Funktionalität* der Komponente; es war die *Designphilosophie*, die nicht mit unserem spezifischen Problem übereinstimmte.

Wir erkannten schließlich, dass wir, um das Verhalten zu erhalten, das wir benötigten, entweder einen aufwendigen Wrapper um den vorgefertigten Speicher schreiben müssten (was sich anfühlte, als würden wir gegen das Framework kämpfen) oder tief in den Quellcode eintauchen und ihn modifizieren müssten (was sich wie die Anmeldung zu einem Wartungsalbtraum anfühlte). Hier begann sich die „verborgene Kosten“ zu zeigen.

Das Gewicht der Abstraktion: Wenn Generalität zur Last wird

Frameworks haben per Definition das Ziel der Generalität. Sie wollen ein breites Publikum mit unterschiedlichen Bedürfnissen bedienen. Das bedeutet, dass ihre Komponenten oft so konzipiert sind, dass sie flexibel, konfigurierbar und teilweise auch etwas vorgeprägt sind, wie die Dinge *funktionieren sollten*. Und für 80% der Anwendungsfälle ist das fantastisch! Es beschleunigt die Entwicklung wirklich.

Aber was ist mit den anderen 20%? Was ist, wenn euer Agent eine sehr spezifische Art von Speicher benötigt, der zwischen temporärem Gesprächskontext, langfristigen Nutzerpräferenzen und statischem Wissen unterscheidet? Oder wenn seine Planungslogik eng mit dem Zustand eines komplexen externen Systems integriert werden muss, anstatt einfach generische Toolaufrufe hintereinander zu schalten?

Das ist der Moment, in dem die Abstraktion dich zu erdrücken beginnt. Du verwendest nicht einfach eine Komponente; du übernimmst ihre Annahmen, ihre Einschränkungen und ihre inhärenten Vorurteile. Und zu versuchen, einen quadratischen Pfahl in ein rundes Loch zu zwängen, selbst mit viel Hämmern, führt normalerweise zu einem gebrochenen Pfahl oder einem missgestalteten Loch.

In unserem Szenario mit dem Support-Agenten war die vorgefertigte Speicherkomponente für einen Gesprächsfluss ausgelegt, in dem all der historische Kontext mehr oder weniger gleich war. Unser Agent musste jedoch eine frische Anfrage gegen eine Datenbank von häufigen Fragen priorisieren und zog nur dann Gesprächshistorie heran, wenn die Anfrage mehrdeutig war oder eindeutig auf eine frühere Interaktion verwies. Die Komponenten des Frameworks waren einfach nicht für diese nuancierte Unterscheidung ohne erheblichen Anpassungsaufwand gebaut.

Wenn es sinnvoll ist, eigene Lösungen zu entwickeln: Kontrolle und Klarheit

Nach einiger Überlegung (und ein paar nächtlichen Pizzasessions) entschieden wir uns, das vorgefertigte Speichermodul abzulehnen und unser eigenes zu implementieren. Es fühlte sich zunächst wie ein Rückschritt an, aber die Klarheit, die es brachte, war sofort spürbar.

Wir entwarfen ein Speichersystem, das speziell auf unsere Bedürfnisse zugeschnitten war:

Ephemerer Gesprächspuffer: Eine einfache deque (doppelt verkettete Warteschlange) für die letzten N Wendungen des aktuellen Gesprächs. Wird nach X Minuten der Inaktivität oder wenn eine neue distinct Anfrage eintrifft, gelöscht.
Nutzerprofil-Speicher: Eine leichte Datenbank (Redis, in unserem Fall), die nutzerspezifische Präferenzen, aktuelle Tickets und häufig gestellte Fragen für diesen Nutzer speichert. Dies bleibt über Sitzungen hinweg erhalten.
Wissensbasis-Index: Unser gewählter Vektorstore, speziell für die Dokumentation und FAQs.

Die Abruflogik wurde dann maßgeschneidert:

Zuerst, versuche die Anfrage direkt gegen die Wissensbasis zu matchen.
Wenn nicht genügend Vertrauen besteht, überprüfe den Nutzerprofil-Speicher auf relevante frühere Interaktionen oder Präferenzen.
Als letztes Mittel oder um die Gesprächsfluss zu erhöhen, ziehe Kontext aus dem Ephemeren Puffer heran.

Hier ist ein vereinfachtes Python-Skizze dessen, wie unser benutzerdefinierter Speicherabruf aussehen könnte, nur um euch eine Vorstellung zu geben:


class CustomAgentMemory:
 def __init__(self, user_id, knowledge_base_client, user_profile_store):
 self.user_id = user_id
 self.kb_client = knowledge_base_client
 self.profile_store = user_profile_store
 self.conversation_history = collections.deque(maxlen=10) # Ephemerer Puffer

 def add_to_history(self, role, message):
 self.conversation_history.append({"role": role, "content": message})

 def get_context(self, current_query: str) -> list[str]:
 context_chunks = []

 # 1. Wissensbasis für direkte Antworten priorisieren
 kb_results = self.kb_client.search(current_query, top_k=3)
 if kb_results:
 context_chunks.extend([res["text"] for res in kb_results])
 # Wenn eine sehr starke Übereinstimmung, brauchen wir vielleicht fürs Erste nicht viel mehr
 if any(res["score"] > 0.8 for res in kb_results): 
 return context_chunks

 # 2. Nutzerprofil für personalisierten Kontext überprüfen
 user_prefs = self.profile_store.get_user_preferences(self.user_id)
 if user_prefs:
 context_chunks.append(f"Nutzerpräferenzen: {user_prefs}")
 
 recent_user_issues = self.profile_store.get_recent_issues(self.user_id, current_query)
 if recent_user_issues:
 context_chunks.extend(recent_user_issues)

 # 3. Füge aktuelle Gesprächshistorie für Fluss hinzu, aber niedrigerer Priorität
 # Wir könnten dies zusammenfassen oder für Relevanz filtern, um Lärm zu vermeiden
 if self.conversation_history:
 # Einfache Methode: einfach aktuelle Wendungen hinzufügen. Fortgeschrittener: LLM zusammenfassen oder filtern.
 for item in list(self.conversation_history):
 context_chunks.append(f"{item['role']}: {item['content']}")

 return context_chunks

# Beispielverwendung (vereinfacht für Kürze)
# kb_client = MyVectorDBClient()
# profile_store = MyRedisProfileStore()
# memory = CustomAgentMemory("user123", kb_client, profile_store)
# memory.add_to_history("user", "Mein Drucker funktioniert nicht.")
# memory.add_to_history("agent", "Welches Modell ist es?")
# context = memory.get_context("Wie behebe ich den Papierstau bei meinem HP OfficeJet 3000?")
# print(context)

Dieser Ansatz gab uns die volle Kontrolle. Das LLM erhielt genau den Kontext, den wir wollten, in der Reihenfolge, die wir wollten, mit dem richtigen Maß an Beständigkeit. Das Debuggen wurde unkompliziert, weil wir jede Zeile Code kannten. Wir mussten nicht raten, was die interne Black Box des Frameworks tat.

Wann vorgefertigte Komponenten noch glänzen: Die 80%-Regel

Ich sage nicht, dass ihr alle Frameworks und vorgefertigten Komponenten wegwerfen sollt. Weit gefehlt! Für viele, viele Agentenprojekte sind sie absolut die richtige Wahl. Wenn die Bedürfnisse eures Agenten gut mit den Annahmen des Frameworks übereinstimmen, spart ihr eine enorme Menge Zeit.

Wenn ihr beispielsweise einen einfachen Chatbot entwickelt, der nur Fragen aus einer einzigen Wissensquelle beantworten und einen grundlegenden Gesprächsfluss aufrechterhalten muss, sind die vorgefertigten Speicher- und Abrufkomponenten (RAG) eines Frameworks perfekt. Ihr erhaltet Geschwindigkeit, angemessene Voreinstellungen und eine gut getestete Grundlage.

Ein weiterer Bereich, in dem Frameworks glänzen, ist die Orchestrierung von Werkzeugen. Eine standardisierte Möglichkeit zu haben, Werkzeuge zu definieren, Argumente weiterzugeben und ihre Ausgaben zu verarbeiten, ist unglaublich wertvoll. Sogar in unserem benutzerdefinierten Speicher-Szenario haben wir immer noch die Werkzeugausführungs-Komponente des Frameworks verwendet, weil ihr Design perfekt auf unsere Bedürfnisse abgestimmt war. Wir mussten nicht neu erfinden, wie ein LLM entscheidet, welche API es aufrufen soll; wir mussten ihm nur den richtigen Kontext geben, um diese Entscheidung zu treffen.

Der Schlüssel ist, die Abwägungen zu verstehen. Es ist die klassische Entscheidung „kaufen versus selbst bauen“, aber mit einem Agenten-Dreh. Kaufen (eine vorgefertigte Komponente verwenden) gibt Ihnen Geschwindigkeit und oft niedrigere anfängliche Entwicklungskosten. Bauen (eine eigene Lösung entwickeln) gibt Ihnen Kontrolle, Spezifität und oft niedrigere langfristige Wartungskosten für hochspezialisierte Agenten.

Handlungsorientierte Erkenntnisse für Ihr nächstes Agenten-Projekt

Verstehen Sie das Kernproblem Ihres Agenten tiefgehender: Bevor Sie sich überhaupt Frameworks ansehen, skizzieren Sie genau, was Ihr Agent tun muss. Welche Art von Informationen muss er sich merken? Wie trifft er Entscheidungen? Mit welchen externen Systemen interagiert er? Je spezifischer Sie sein können, desto besser.
Bewerten Sie Framework-Komponenten kritisch: Wählen Sie ein Framework nicht einfach nur, weil es beliebt ist. Für jede kritische Komponente (Speicher, Planung, Werkzeugausführung) stellen Sie sich folgende Fragen:
- Stimmt die Designphilosophie dieser Komponente mit den einzigartigen Anforderungen meines Agenten überein?
- Wie viel Konfiguration oder Anpassung müsste ich vornehmen, um es passend zu machen?
- Was sind die zugrunde liegenden Annahmen? (z. B. behandelt der Speicher alle Kontexte gleich?)
- Wie leicht ist es, zu debuggen, wenn innerhalb dieser Komponente etwas schiefgeht? Kann ich ihren internen Zustand leicht inspizieren?
Haben Sie keine Angst vor einer Mischung: Sie müssen nicht auf ein Framework setzen oder ganz auf eine eigene Lösung setzen. Sie können ein Framework für seine hervorragende Werkzeugorchestrierung nutzen, aber Ihren eigenen benutzerdefinierten Speicher implementieren. Oder verwenden Sie das Planungsmodul, aber stellen Sie es mit benutzerdefinierten Werkzeugen zur Verfügung. Modularität ist Ihr Freund.
Priorisieren Sie Klarheit über Cleverness (insbesondere bei der Kernlogik): Wenn Sie ein System erstellen, das auf ein LLM angewiesen ist, um Kontext zu interpretieren und Entscheidungen zu treffen, ist Mehrdeutigkeit Ihr Feind. Wenn das Erstellen Ihrer eigenen Komponente Ihnen glasklare Kontrolle über die Eingaben für das LLM oder den Status Ihres Agenten gibt, ist diese Klarheit oft die zusätzliche Entwicklungszeit wert.
Berücksichtigen Sie den Wartungsaufwand: Wenn Sie eine vorgefertigte Komponente stark anpassen oder sie in Schichten der Abstraktion einwickeln, könnten Sie mehr Wartungsprobleme haben, als wenn Sie sie von Anfang an selbst gebaut hätten. Aktualisierungen des zugrunde liegenden Frameworks könnten Ihre benutzerdefinierte Logik brechen, was zu mehr Refaktorisierung führen kann.

Mein Weg mit dem Support-Agenten-Projekt hat mir wirklich vor Augen geführt, dass „schneller“ nicht immer „günstiger“ auf lange Sicht ist. Manchmal spart es Zeit, ein zentrales Stück Ihres Agentensystems selbst zu erstellen, das genau auf Ihre einzigartigen Bedürfnisse zugeschnitten ist, was Ihnen endloses Debugging, Frustration und letztendlich eine spätere Refaktorisierung ersparen wird. Es gibt Ihnen Eigentum und ein tieferes Verständnis für das Gehirn Ihres Agenten.

Also, beim nächsten Mal, wenn Sie ein Agentenprojekt starten, halten Sie inne, bevor Sie blind nach der bequemsten vorgefertigten Komponente greifen. Denken Sie darüber nach, was Ihren Agenten wirklich unterscheidet, und überlegen Sie, ob eine maßgeschneiderte Lösung nicht am Ende die wirtschaftlichere Wahl sein könnte. Viel Spaß beim Bauen!

Mein Agent-Framework-Auswahl: Aufbau über PoC hinaus

Die Illusion der Geschwindigkeit: Wenn „Schnellstart“ zu „Langsame Fehlersuche“ wird

Das Gewicht der Abstraktion: Wenn Generalität zur Last wird

Wenn es sinnvoll ist, eigene Lösungen zu entwickeln: Kontrolle und Klarheit

Wann vorgefertigte Komponenten noch glänzen: Die 80%-Regel

Handlungsorientierte Erkenntnisse für Ihr nächstes Agenten-Projekt

Verwandte Artikel

Related Articles

Die Illusion der Geschwindigkeit: Wenn „Schnellstart“ zu „Langsame Fehlersuche“ wird

Das Gewicht der Abstraktion: Wenn Generalität zur Last wird

Wenn es sinnvoll ist, eigene Lösungen zu entwickeln: Kontrolle und Klarheit

Wann vorgefertigte Komponenten noch glänzen: Die 80%-Regel

Handlungsorientierte Erkenntnisse für Ihr nächstes Agenten-Projekt

Verwandte Artikel

You May Also Like

📚 You Might Also Like

Related Articles