Hermes Agent ist das Framework, das du wählst, wenn du einen Agenten brauchst, der über Wochen und Monate besser wird - und der nicht nur einen Task abarbeitet, sondern Subagents loskickt und Ergebnisse aggregiert. Wenn deine Agent-Aufgabe "über Nacht recherchieren, Bericht morgens auf den Tisch" lautet, ist Hermes der richtige Pick.
Hersteller und Lizenz
Hermes Agent kommt von Nous Research - derselben Gruppe, die auch das Hermes-4-Modell und andere Open-Weight-Modelle veröffentlicht. Das Agent-Framework ist MIT-lizenziert, getrennt von den Modell-Weights, und funktioniert mit jedem LLM-Provider.
Repo: github.com/NousResearch/hermes-agent · Site: hermes-agent.nousresearch.com
Architektur in Stichpunkten
- Python 87,8 % / TypeScript 9 % - CLI-first mit voller TUI
- Streaming-Tool-Output, Slash-Commands, Multiline-Editing
- Memory: agent-curated, FTS5-Volltext über Sessions, LLM-basiertes Cross-Session-Summarizing, Honcho-Dialectic-User-Modeling
- 40+ Built-in Tools, MCP-Integration nativ
- 200+ Modelle via OpenRouter, Nous Portal, NVIDIA NIM, OpenAI, z.ai/GLM, Kimi, MiniMax, HuggingFace, Custom Endpoints
- 7 Sandbox-Backends: lokal, Docker, SSH, Singularity, Modal, Daytona, Vercel Sandbox
- Parallele Subagents über Python-RPC mit isolierten Konversationen
- Skill-Standard kompatibel mit agentskills.io
Was Hermes besonders macht: Self-Improvement
Klassische Agenten-Frameworks führen Tools aus und antworten. Hermes geht einen Schritt weiter: Der Agent analysiert sein eigenes Verhalten und schlägt Skill-Konsolidierungen vor.
Praxis-Beispiel: Du setzt einen Recherche-Agenten ein, der für jede neue Lead-Anfrage 1) LinkedIn-Profil checkt, 2) Firma googelt, 3) Größe abschätzt, 4) Kontakt-Info sucht. Nach 50 Durchläufen merkt Hermes: "Diese vier Schritte laufen immer in derselben Reihenfolge mit denselben Quellen." Vorschlag: Skill research_lead erstellen. Du bestätigst, ab dem nächsten Mal ist es ein Tool-Call statt vier.
Subagent-Orchestrierung
Ein Hermes-Master-Agent kann parallele Subagents über Python-RPC starten, jeweils mit eigenen Konversations-Kontexten. Das ist relevant, wenn du:
- Marktdaten aus mehreren Quellen parallel ziehen willst
- Multi-Tenant-Setups baust (jeder Kunde bekommt eigenen Subagent-Kontext)
- Lange laufende Recherchen aufteilst (5 Subagents je 30 Min, parent aggregiert)
Self-Host-Anforderungen
- Linux/macOS empfohlen (Windows via WSL2)
- Python-Runtime (Repo nennt keine harte Mindestversion - typisch 3.11+)
- Optional Docker für isolierte Sandboxes
- Bei lokalen Modellen: GPU sinnvoll, Ollama oder vLLM-Compatible-Endpoint
Laut Maintainer "5-Dollar-VPS bis GPU-Cluster" - wir bestätigen das. Für Cloud-Modell-Setups reicht ein Hostinger KVM 1. Für ernsthafte Multi-Agent-Workloads würden wir KVM 2 oder 4 wählen.
Killer-Features im Überblick
- Self-improving Skills - der einzige Vergleichskandidat mit echtem Lern-Loop
- Natural-Language-Cron: "Jeden Mo, Mi, Fr um 8:00 schick mir einen Pipeline-Bericht in Slack" - fertig
- Messaging: Telegram, Discord, Slack, WhatsApp, Signal, Email, CLI
- Erweiterungen: Web-Search, Browser-Automation, Vision, Image-Gen, TTS, Multi-Model-Reasoning
- Serverless-Deploy via Modal/Daytona - kostet im Idle fast nichts
Use-Cases im DACH-Mittelstand
- Autonomer DevOps-Agent: Backups prüfen, Disk-Auslastung melden, Hot-Fixes vorbereiten
- Long-running Research-Agent: Marktdaten kontinuierlich beobachten, Briefings erstellen
- Kundenservice-Triage mit Skill-Akkumulation: Agent wird über Wochen besser an deinem Tone
- Daily Briefings: Sales-Pipeline, Top-Tickets, Kalender - auf den Punkt um 7:00
- Multi-Tenant-Subagents: für SaaS, wo jeder Kunde isolierten Agenten braucht
Vergleich: Wann Hermes statt OpenClaw oder NanoClaw?
| Wenn du brauchst … | Wähle |
|---|---|
| Self-improving / lernender Agent | Hermes |
| Parallele Subagents | Hermes |
| Python-Stack | Hermes |
| Maximale Channel-Breite | OpenClaw |
| Container-Isolation pro Agent (DSGVO) | NanoClaw |
| Minimaler Footprint / 1-GB-VPS | NanoClaw |
So fängst du an
- VPS aufsetzen (z.B. Hostinger KVM)
- Python 3.11+, optional Docker
git clone https://github.com/NousResearch/hermes-agent- API-Keys (OpenRouter empfohlen für 200+ Modelle)
- Erste Slash-Command-Konfiguration testen
- Skill-Pattern definieren - Hermes lernt mit
Cross-Site-Verbindungen
Wir betreiben eine separate, ausführliche DACH-Site speziell zu Hermes-Agent-Setup, Templates und Affiliate-Hosting:
- hermesagenten.de - Detail-Setup-Guides, Templates, Hostinger-Empfehlung
Häufige Fragen
Ist Hermes Agent dasselbe wie das Hermes-4-Modell?
Nein. Hermes Agent (das Framework) und Hermes-4 (das Sprachmodell) sind verwandt durch denselben Hersteller (Nous Research), aber technisch entkoppelt. Du kannst Hermes Agent mit jedem Modell betreiben (Claude, GPT, Gemini, Llama, Hermes-4, Kimi, etc.) - Hermes-4 ist nur eine von 200+ Optionen.
Was ist "self-improving"?
Hermes Agent kann eigene Skills erstellen und verbessern. Wenn der Agent merkt, dass er regelmäßig dieselbe Sequenz an Schritten ausführt (z.B. immer gleiche Quellen für eine bestimmte Frage prüft), schlägt er vor, das als Skill zu persistieren - und beim nächsten Mal ruft er den Skill direkt auf, statt zu rekonstruieren.
Welche Hardware brauche ich?
Laut Repo läuft Hermes "auf einem 5-Dollar-VPS bis hin zu GPU-Clustern". RAM-Minimum offiziell nicht dokumentiert (Stand v0.13.0). Wenn du Cloud-Modelle nutzt, reicht ein 1–2 GB VPS. Lokales Modell: ab 16 GB für Llama 4 8B-Klasse. Für Hermes 4 Pro 70B brauchst du eine GPU mit ~40 GB VRAM oder Quantisierung.
Was ist Honcho-Dialectic-User-Modeling?
Honcho ist ein Memory-Subsystem, das nicht nur Sessions speichert, sondern Modelle des Benutzers aufbaut. Über Zeit lernt der Agent Vorlieben, Schreibstile, Fachgebiete des Users. In B2B-Settings ist das mächtig: Account-Manager-Agent erinnert sich, wie Kunde X verhandelt.
Wie viele Modelle kann Hermes ansprechen?
Über 200 - via OpenRouter (zentraler Router), Nous Portal, NVIDIA NIM, OpenAI-API, z.ai/GLM, Kimi, MiniMax, HuggingFace, plus Custom-Endpoints. Plus alle Sandbox-Backends: lokal, Docker, SSH, Singularity, Modal, Daytona, Vercel Sandbox.
Lock-in-Risiko?
Praktisch keines. MIT-Code, modell-agnostisch, nicht an Nous-Infrastruktur gebunden - du kannst alles von OpenRouter abkoppeln und mit lokalem Modell betreiben.