Das ESP-Claw-Framework von Espressif bringt das Konzept aktuellr KI-Agenten auf Hardware der ESP32-Klasse herunter: Ein Gerät kann Anweisungen per Chat entgegennehmen, bei Bedarf ein LLM verwenden und diese Entscheidung anschließend in lokale Lua-Regeln und Hardware-Aktionen umsetzen. Dies ist eine interessante Entwicklung für Entwickler, die bereits mit ESP32-S3-Boards arbeiten, da die Diskussion von „Kann ein Mikrocontroller eine API aufrufen?“ hin zu „Kann ein kleines Gerät Kontext behalten, auf Ereignisse reagieren und etwas Nützliches tun, ohne dass jede Aktion aus der Cloud gesteuert wird?“ verschoben wird. Als praktischer Vergleichspunkt hat Elektor bereits über ESP32-S3-Sensoranwendungen berichtet, und ESP-Claw erweitert diese Art von Experimenten auf Board-Ebene nun in Richtung Agentensysteme.
 

Concept diagram showing ESP-Claw connecting IoT devices, sensors, cloud services, and AI processing through an ESP32-class edge agent.
ESP-Claw verbindet lokale IoT-Geräte und Cloud-Dienste über ein KI-fähiges Edge-Agenten-Framework.

Was das ESP-Claw-Framework macht

ESP-Claw wird als „Chat Coding“-KI-Agenten-Framework für IoT-Geräte beschrieben. In der Praxis bedeutet dies, dass ein Benutzer ein gewünschtes Verhalten in einer Chat-Oberfläche beschreiben kann, während das Framework den gesamten Ablauf von der Sensorerfassung über die Analyse und Entscheidungsfindung bis zur Ausführung übernimmt. Das LLM wird für die flexible Interpretation und Werkzeugnutzung eingesetzt, während sich bestätigte Verhaltensweisen als lokale Lua-Skripte speichern lassen, die deterministisch ausgeführt werden. Dieser Unterschied ist wichtig: Hier läuft kein vollständiges Sprachmodell auf einem winzigen Mikrocontroller. Stattdessen handelt es sich um eine lokale Agenten-Laufzeitumgebung auf Espressif-Hardware, die bei Bedarf für Schlussfolgerungen auf externe Modelle und für vorhersehbare Aktionen auf lokale Skripte zurückgreift.
 

ESP-Claw chat interface confirming that a Lua script has started a rainbow effect on an LED strip connected to GPIO14.
ESP-Claw wandelt eine Chat-Anweisung in ein laufendes Regenbogen-Effekt-Skript für einen angeschlossenen LED-Streifen um. Quelle: Espressif.

Laut der aktuellen Projektdokumentation unterstützt ESP-Claw die Chat-basierte Erstellung von Funktionen, ereignisgesteuerten Betrieb, bidirektionales MCP sowie einen lokalen strukturierten Speicher. Die Liste der unterstützten Chips umfasst derzeit ESP32-S3, ESP32-P4 und ESP32-C5, wobei mindestens 8 MB Flash und 8 MB PSRAM erforderlich sind. Für unterstützte Boards steht außerdem ein browserbasierter Flasher zur Verfügung, Entwickler können jedoch weiterhin mit ESP-IDF aus den Quellen kompilieren.

Architektur des ESP-Claw-Frameworks

Die Architektur besteht glücklicherweise nicht nur aus „Prompt hinein, GPIO hinaus“. Das Projekt kombiniert eine ESP-IDF-Anwendung, wiederverwendbare Laufzeitkomponenten, ein Fähigkeitensystem, einen Ereignis-Router, eine Lua-Laufzeitumgebung sowie Hardware- und Skripterweiterungen für Peripheriegeräte wie Displays, Kameras, Audio, Taster, GPIO, PWM, I2C, ADC, LED-Streifen, Speicher und UART. ESP-Claw kann aufrufbare Fähigkeiten einem LLM, einer Konsole oder Automatisierungsregeln bereitstellen, während der Ereignis-Router auf Auslöser reagieren kann, ohne auf eine Polling-Schleife warten zu müssen.

Auch der MCP-Aspekt ist bemerkenswert. Das Model Context Protocol hat sich zu einer gängigen Methode entwickelt, mit der KI-Anwendungen Werkzeuge und Datenquellen anbinden. ESP-Claw kann sowohl als MCP-Server als auch als MCP-Client fungieren. Dadurch kann ein Gerät der ESP32-Klasse Hardware-Fähigkeiten für externe Agenten bereitstellen und gleichzeitig externe Dienste aufrufen. Genau hier liegt die interessante Brücke: Das Board ist nicht mehr nur ein Sensor-Endpunkt oder Aktorknoten, sondern ein aktiver Teilnehmer in einem Agenten-Workflow.

Was Entwickler ausprobieren können

Zu den ersten Beispielen gehören die Steuerung von RGB-LED-Streifen, Display-Ausgaben, Kamera-Interaktionen, Audio-Ausgaben, Zeitplanung, Erinnerungen und Speicherfunktionen. ESP-Claw kann für Chat-Anwendungen wie Telegram, QQ Bot, Feishu und WeChat ClawBot konfiguriert werden. Zu den in der Dokumentation aufgeführten LLM-Optionen gehören OpenAI-kompatible APIs, Qwen, Claude, DeepSeek sowie benutzerdefinierte Endpunkte. Für die Websuche steht Tavily zur Verfügung. Dadurch erhalten Experimentierer einen nutzbaren Software-Stack, ohne jede Integration von Grund auf selbst entwickeln zu müssen.
 

ESP32-S3 development board on a breadboard with a display, LED ring, DHT11 sensor, buzzer module, and micro servo for an ESP-Claw hardware demo.
Das Tutorial von Espressif beginnt mit ESP-Claw auf einem ESP32-S3-Entwicklungs-Board mit Display-, Beleuchtungs-, Sensor-, Audio- und Servo-Steuerungs-Peripherie.

ESP32-Boards werden bereits für WLAN-Sensoren, Dashboards, Kameras, Spielzeuge, Roboter, Audio-Projekte und Home-Assistant-Knoten eingesetzt. Das ESP-Claw Framework deutet auf den nächsten Schritt hin: kleine Geräte, die Benutzervorlieben speichern, auf Ereignisse reagieren, ihre Fähigkeiten über standardisierte Schnittstellen bereitstellen und gleichzeitig zeitkritische Aktionen lokal ausführen können. Das ist ein deutlich glaubwürdigerer Ansatz, als zu behaupten, jedes Edge-Gerät benötige ein riesiges Modell, das mit Brechstange und Marketingbudget in einen Mikrocontroller gepresst wird.

Der Quellcode ist im GitHub-Repository des Projekts verfügbar, wo Espressif die Implementierung als von OpenClaw inspiriert und in C neu umgesetzt beschreibt. Das Projekt befindet sich noch in aktiver Entwicklung und sollte daher eher als Framework zum Experimentieren denn als fertige Plattform für industrielle Steuerungsaufgaben betrachtet werden. Für Maker und Embedded-Entwickler, die sich für praktische KI-Agenten auf Mikrocontroller-Hardware interessieren, ist es jedoch definitiv ein Projekt, das man im Auge behalten sollte.