geisten – Embedded Agentic-RAG-Platform für DACH-Robotik

Agenten-Review

Der niedrigschwellige Einstieg: prüfen, bevor ein Pilot gebaut wird.

Der Review ist für Teams gedacht, die ein konkretes Gerät, eine Maschine, ein Produkt oder einen lokalen Prozess im Blick haben. Wir bewerten nicht abstrakt "KI", sondern welche Aufgabe ein lokaler Agent auf der Zielhardware zuverlässig übernehmen kann, welche Modellklasse dafür passt und welcher nächste Schritt wirtschaftlich sinnvoll ist.

Zielhardware

Auf welchem Edge-Gerät muss die Lösung laufen?

Raspberry Pi 5, Industrie-PC, ARM/x86-System, internes On-Prem-Setup oder bereits verbaute Hardware mit engen Ressourcen.

Aufgabe & Daten

Was soll der Agent lokal übernehmen?

Mit Nutzern in natürlicher Sprache arbeiten, Text verstehen, Sprache erkennen, Bilder auswerten, Sensordaten einordnen oder lokale Workflows ausführen.

Fit

Wann lohnt sich ein Pilot?

Wenn ein spezialisierter lokaler Agent fachlich genug kann und Datenschutz, DSGVO-Anforderungen, Latenz oder Betriebskosten den lokalen Ansatz rechtfertigen.

Ergebnis

Was bekommt ihr nach dem Review?

Eine klare Empfehlung: Pilot bauen, kleiner starten, technische Vorarbeit leisten oder den lokalen Agenten bewusst nicht verfolgen.

Anfrage vorbereiten

Drei Angaben reichen für eine erste Einschätzung

Edge-Gerät oder Hardwareklasse
Aufgabe des Agenten und Datenart: Text, Audio, Bild oder Sensorik
Offline-, Latenz- oder Datenschutzanforderung

Engagement-Anfrage senden

Engagement-Tiers

Drei Tiers + T&M-Backup — Festpreis, Latenz-Garantie, 12 Monate Maintainer-Support inklusive.

Vier Engagement-Formate mit transparenten Preisen, jeweils auf eine Schicht der Geisten-Plattform fokussiert. Der Prozess ist immer derselbe — Review, Pilot, Stack, Betrieb — der Umfang skaliert mit dem Tier. Kein SaaS-Abo, kein Cloud-Lock-in, keine versteckten Stundenkontingente.

Review

Wir klären Ziel-Hardware, Modell-Familie, Use-Case, Latenz-Anforderungen, Compliance-Bedarf und wirtschaftlichen Fit.

Pilot

Inferenz läuft auf der Ziel-Hardware im dokumentierten Mess-Setup. Latenz, Memory, Quality validiert.

Stack

Open-Weight-Modell, Geisten-Engine, eventuell Fine-Tuning, Bridges (ROS-2 / HTTP) und Tool-Anbindung werden zusammengeführt.

Betrieb

Deployment, Updates, Monitoring. 12 Monate Maintainer-Support inklusive, Verlängerung €3k/Jahr.

Tier 1 · Inference-Optimization

€8 – 15k Festpreis · 3 – 4 Wochen

Wann sinnvoll: Wenn euer Modell gewählt ist (Qwen3, Gemma 3, Llama 3.2, Phi-3-mini), aber auf der Ziel-Hardware nicht performant läuft.

NEON-Quantisierung + Kernel-Optimierung
Latenz-Garantie im dokumentierten Mess-Setup
Benchmark-Report (Latenz, Memory, Power)
12 Monate Maintainer-Support

Tier 1 anfragen

Tier 2 · Domain-Fine-Tuning + Agentic-RAG-Deployment

€25 – 50k Festpreis · 6 – 10 Wochen

Wann sinnvoll: Wenn euer Use-Case deutsche Sprachqualität oder Domain-Vokabular plus Multi-Step-Tool-Use braucht — Capability-Compensation-These in der Praxis.

Datenkuration + QLoRA-Fine-Tuning auf Open-Weight-Basis
Agentic-RAG-Integration (Tool-Use, Domain-Index, ROS-2-/OPC-UA-Bridges)
Eval gegen Domain-Benchmark + Geisten-Bench-Comparison
12 Monate Maintainer-Support

Tier 2 anfragen

Tier 3 · Custom-Distillation (ab Q2 2027)

€80 – 200k Festpreis · 12 – 16 Wochen

Wann sinnvoll: Wenn Open-Weight-Lizenzen nicht passen oder Memory-Budget < 200 MB — wir destillieren euer Modell via HALO/CAB-Pipeline.

Custom 0.5–1.5B Modell auf eure Ziel-Hardware
2–4× Geschwindigkeitsvorteil vs. FP16-Baselines
IP-Übertragung optional, Royalty-Klausel ab hohen Stückzahlen
Hardware-Rev-spezifische Kernel-Profile (A55 / A76 / A78AE)

Tier 3 anfragen

T&M-Backup · Stundensatz

€1.500 / Tag · 2 – 10 Tage

Wann sinnvoll: Wenn ihr nur einen Audit, einen Mid-Engagement-Pivot oder kleinere Engineering-Hilfe braucht.

Tages-Reports + Stunden-Log
5-Tage-Kündigungsfrist
Kein Festpreis-Commitment
Wartungs-Support nur via Tier 1 / 2 / 3

T&M-Termin anfragen

Use-Case-Familien

Vier Anwendungs-Familien — wo 0.5–1.7B-Modelle GPT-4-Mini-Quality erreichen.

Diese vier Use-Case-Familien sind die Capability-Compensation-Sweet-Spots: Tool-Use, Retrieval, strukturierte Ausgabe — Tasks, bei denen ein kleines Modell mit Agentic-RAG-Framework die Lücke zu Cloud-Large-LLMs schließt. Geisten ist nicht für Sub-Sekunden-Voice-Assistant-Reaktionen wie Alexa/Siri und nicht für offenes Reasoning (MMLU/GSM8K) — das bleibt Cloud-LLM-Domain.

Konfiguration

Konfigurations- und Programmier-Befehle

Komplexe Befehle, bei denen der Nutzer sowieso auf eine Antwort wartet — Eco-Modus erklären, Zeitprogramme setzen, Workflows einrichten.

Beispiele: Robotik („Programmiere Pick-Position bei Werkstück Y"), Hausgerät („Wasche 60°C, aber starte erst morgen 5 Uhr"), HVAC („Heizung morgens 6 Uhr auf 21°"). Latenz-Toleranz: 2–4 s.

Diagnose

Status & Diagnose

Abfragen und Erklärungen, bei denen Inhalt wichtiger ist als Sub-Sekunden-Reaktion — Fehlercode-Erklärung, Verbrauchsanalyse, Wartungs-Diagnose.

Beispiele: Industrial-Control („Erkläre Fehler 4023"), Hausgerät („Wann ist die Maschine fertig und warum dauert es länger?"), Field-Service („Diagnose-Anweisung für Symptom X bei Modell Y"). Latenz-Toleranz: 2–5 s.

Multi-Step

Multi-Step-Aktionen & Tool-Use

Mehrere Schritte aus einem Befehl: Plan, Ausführung, Rückmeldung. Hier wird LLM-Tool-Calling produktionsreif.

Beispiele: Smart-Home („Wenn Wäsche fertig, schicke Nachricht und schalte Trockner ein"), Robotik („AGV 1 fertig → AGV 2 zu Station C senden"), Voice-Picking („Nimm 3× Teil A, prüfe Bestand, drucke Etikett"). Latenz-Toleranz: 3–5 s.

Async

Voice-to-Document & Async-Workflows

Sprache wird zu strukturiertem Output — Memos, Reports, Protokolle. User-Eingabe und Ergebnis-Verarbeitung sind zeitlich entkoppelt.

Beispiele: Field-Service („Reparatur-Protokoll: Wärmetauscher getauscht, 45 Min, Teile siehe Liste"), Industrial („Schicht-Report aus Sensor-Events"), Audio-Hardware („Voice-Memo zu Aufgabenliste strukturieren"). Latenz-Toleranz: 5–15 s.

Wirtschaftlicher Nutzen

Vier Argumente, die CTO und CFO überzeugen.

Embedded-LLM-Engineering ist 2026 eine knappe Skill-Kombination (< 500 Engineers weltweit). Inhouse-Aufbau dauert 12–18 Monate und verbrennt typisch €270k Loaded Cost. Geisten-Engagements lösen das in 3–7 Wochen.

Time-to-Market

6 Wochen statt 12–18 Monate Inhouse-Aufbau

ARM-NEON-Quantisierung + LLM-Engineering + Embedded-Deployment in einer Person ist global rar (< 500 Engineers weltweit). Inhouse-Aufbau kostet typisch 1,5 FTE × 18 Monate × €120k Loaded Cost = ~€270k. Ein Geisten-Engagement liefert in 3–7 Wochen für €8–40k.

OpEx-Reduktion

Cloud-LLM-OpEx skaliert nicht über 100+ Geräten

200 Geräte × 1.000 Queries/Tag × Cloud-Inferenz-Preise ergeben ~€18.000/Monat OpEx pro Roboter-Flotte. On-Device-Deployment ist eine Einmal-Investition statt laufender Kosten — und spart zusätzlich ~95 % Energie pro Inferenz-Query gegenüber Cloud-LLM.

Compliance

Audit-tauglich für ISO 26262, IEC 62304, MDR, DO-178C

~10.000 Zeilen pures C23, statisch linkbar, deterministisches Memory-Modell. Was generische LLM-Engines mit ~70k Zeilen Template-C++ strukturell nicht leisten, ist hier Design-Prinzip. Audit-Whitepaper mit externem TÜV-Auditor in Q4 2026.

Souveränität

DSGVO + EU-AI-Act + CRA — strukturell ohne Cloud-Konflikt

Cloud-LLM in Industrial-Setups kollidiert mit DSGVO Art. 22, EU-AI-Act Art. 6 + Annex III (ab August 2026) und CRA (ab Dezember 2027). On-Device-Deployment löst das strukturell. Event-sourced Sessions als DSGVO Art. 30 Verarbeitungsverzeichnis-ready.

Drei-Schicht-Plattform

Engine Q2/Q3 2026 · Agent Q4 2026 · Bench Q3 2026

Engine + Agent-Framework + Modelle — kohärenter Open-Core-Stack.

Statt drei konkurrierender Produkte: eine kohärente Open-Core-Platform mit drei Schichten. Engine (C23-Core, ARM-NEON-Quantisierung, GGUF-Reader) läuft auf Modellen (Open-Weight in Year 1 · Custom-Distillation als Tier 3 ab Year 2 · eigenes 0.7B Mamba-3 als OSS-Release Year 3). Das Agent-Framework addiert Tool-Calling, RAG und ReAct-Pattern — und schließt die Capability-Compensation-Lücke zu Cloud-LLMs auf vertikalen Tasks. Alle drei Schichten unter MIT-Lizenz.

Drei Schichten · alle MIT-OSS · GGUF-kompatibel

Layer 3 Agent-Framework · Q4 2026

Layer 2 Engine C23 · Q2/Q3 2026

Layer 1 Modelle: Open-Weight → Custom-Distill → eigenes Mamba-3

Bench Hypothesen-Validation monatlich, reproduzierbar

Architektur-Diagramm: Geisten Core (Inferenz) + Shell (HTTP, ROS-2, CLI), Deployment auf ARM-Cortex-A.

C23-Core, ~10.000 Zeilen, statisch linkbar
Handgeschriebene NEON-W3A8/W4A8-Quantisierungs-Kernels
Vier Open-Weight-Modell-Familien hand-getuned (Qwen3 / Gemma 3 / Llama 3.2 / Phi-3-mini)
GGUF-Lese-Pfad — llama.cpp-Format-kompatibel
Deterministisches Memory-Modell, null Heap-Allokation in der Inferenz-Schleife
Event-sourced Sessions (DSGVO Art. 30 Verarbeitungsverzeichnis-ready)
Tool-Calling nativ in der Engine integriert
ROS-2 + Home-Assistant Reference-Bridges

Layer 2 · Engine

C23, hochoptimiert für ARM-Cortex-A

~10.000 Zeilen pures C23, statisch linkbar, NEON-W3A8/W4A8-Quantisierung handgeschrieben, GGUF-Reader (llama.cpp-Format-kompatibel). 100 % Engineering-Energie in ARM-NEON-Pfad. Kein GPU-Code. Cortex-A55 / A76 / A78AE Hardware-Rev-spezifische Kernels in Planung Q3 2027.

Layer 3 · Agent-Framework

Tool-Calling + RAG + ReAct auf 0.5–1.7B-Modellen

Native Tool-Calling, lokaler Vector-Index für Domain-RAG, Multi-Step-ReAct-Pattern, Eval-Harness. ROS-2-Bridge für Robotik, OPC-UA-Bridge für Industrial, HTTP/MQTT für Smart-Home. Public-Release Q4 2026 unter MIT-Lizenz.

Layer 1 · Modelle

Open-Weight in Year 1, Custom-Distillation ab Year 2

Year 1: Qwen3 (0.5B / 1.7B / 4B), Gemma 3 (1B / 4B), Llama 3.2 (1B / 3B), Phi-3-mini — hand-getuned mit Quality-Garantie pro Hardware. Year 2: Custom-Distillation-as-a-Service (Tier 3, HALO/CAB). Year 3: eigenes 0.7B Mamba-3-A8W1.58 als Open-Weight-Release.

Compliance + Validation

Audit-tauglich nach Design + Capability-Compensation-These reproduzierbar belegt

~10.000 Zeilen pures C23 (kein C++, keine Template-Metaprogrammierung), statisch linkbar, deterministisches Memory-Modell. Event-sourced Sessions als DSGVO Art. 30 Verarbeitungsverzeichnis. Audit-Whitepaper mit externem TÜV-Auditor (TÜV Süd oder SGS-TÜV Saar) in Vorbereitung Q4 2026 — Eignungsnachweis für ISO 26262, IEC 62304, DO-178C, MDR. Hypothesen-Validation der Capability-Compensation-These erfolgt monatlich transparent via Geisten-Bench mit vier Custom-Benches plus ehrlicher Limitations-Disclosure auf MMLU/GSM8K/HumanEval.

Positionierung — wofür ist Geisten gemacht?

Geisten spezialisiert · Embedded-ARM

Generische OSS-Inferenz llama.cpp · vLLM

Cloud-LLM OpenAI · Anthropic

Fokus Embedded-ARM spezialisiert universell API-Service

Linking statisch 1 Binary dynamisch extern

Hardware ARM-NEON CPU-only breit · GPU extern

Audit-Track ISO/MDR-Eignung nicht angestrebt nein

Daten on-device on-device extern

Lieferform Engagement + OSS OSS-Library API-Sub

Wir konkurrieren nicht head-on mit llama.cpp — für 80 % aller Use-Cases ist llama.cpp die richtige Wahl. Geisten ist komplementär: spezialisiert auf den Embedded-ARM-Use-Case-Ausschnitt, wo Audit-Tauglichkeit, statisches Linking und deterministische Latenz strukturell zählen.

Forschungs-Linie · Year 2+

Eigene Modell-Linie als R&D-Reserve

Parallel zum Production-Stack arbeiten wir an einer eigenen Modell-Linie: ein 0,7B-Mamba-3-A4W1.58-Modell. State-Space-Architektur mit BitNet-1.58- Quantisierung (ternäre Weights + 4-bit-Aktivierungen) und eigenen NEON- Kernels für ternäre Matmul. Aktuell Lab-Phase — Trainings-Validierung läuft.

Wir dokumentieren die Trainings-Erkenntnisse öffentlich, sobald die ersten reproduzierbaren Bench-Ergebnisse vorliegen. Aktuell kein Produktversprechen für 2026. Das Production-Stack baut auf Open-Weight-Modellen (Qwen3, Gemma 3, Llama 3.2, Phi-3-mini).

Roadmap-Diagramm: OSS-Release Q2/Q3 2026, ROS-2-Bridge Q3, Audit-Whitepaper Q4, Multimodal-Audio-Action Q1 2027.

Zielbranchen

Embedded-Engineering-Teams im DACH-Mittelstand.

Wir adressieren primär Engineering-Leads in Robotik-Startups, Audio-Hardware-OEMs, Industrial-Sensorik, Field-Service-Software- Vendoren und Medical-Embedded — Mittelstand-Setups mit Engineering-Lead-Authority, kurzen Sales-Zyklen und ARM-CPU- Ziel-Hardware unter 4 GB RAM.

Robotik

Cobots, AGV/AMR, Industrie-Roboter

Voice-Programmierung, Tool-Use-Action-Planning, Multimodal-Perception. Reference-Integration via ROS-2-Bridge. Targets: Magazino, Robco, Neura, Franka, Wandelbots, Synapticon, Roboception, Fruitcore und ~30 weitere DACH-Robotik-Firmen.

Industrial

SCADA, Industrial-Control, Wartungs-Software

Voice-Status-Abfragen, Fehler-Erklärungen, Schicht-Reports, Maintenance-Diagnose. On-Device wegen Werks-IT-Trennung und DSGVO-Industrial-Setups. Audit-Track für IEC-62443-Anforderungen.

Audio-Hardware

Premium-Audio-OEMs und Hörakustik-Adjacent

Multimodal-Audio-Action ohne Whisper-Cascade. Reference-Use-Cases: Voice-Memo-Strukturierung, Premium-Headset-Konfiguration, Sprach-Notiz-zu-Aufgabenliste.

Field-Service

Service-Management-Software-Vendoren

Voice-Field-Reports, Diagnose-Helfer, Reparatur-Anweisungs-Lookup im Mobile/Tablet-Workflow. DSGVO-konform bei Kunden-/Maschinen-Daten der Endkunden.

Diagramm: Engagement-Prozess in drei Schritten — Discovery, Pilot-Lieferung, Wartung.

DACH-Mittelstand
ARM-Embedded
ISO 26262 / IEC 62304 / MDR
DSGVO + EU-AI-Act
On-Device
0 Cloud-Abhängigkeiten

Gründer

Von der Physik zur lokalen KI.

Dr. Germar Schlegel hat in experimenteller physikalischer Chemie promoviert — mit dem Schwerpunkt auf der Analyse von Zerfallsdynamiken in CdSe-Nanokristallen. Dabei ging es um schlecht gestellte inverse Probleme: aus verrauschten Messdaten das Maximum an belastbarer Information herauszuholen.

Genau dieses Prinzip treibt heute geisten an: aus begrenzten Ressourcen — gewöhnliche CPUs, kompakte Open-Weight-Modelle, lokale Infrastruktur — maximale Leistung herausholen.

Tech-Basis

20+ Jahre C-Engineering, eigene Inferenz-Engine

Über 20 Jahre C-Engineering, davon mehrere Jahre Embedded- und Audio-Processing. Die eigene C23-Multimodal-Inferenz-Engine (~10.000 Zeilen, handgeschriebene NEON-W3A8/W4A8-Quantisierung, validiert auf Raspberry Pi 5) ist global rare Skill-Kombination — geschätzt < 200 Engineers weltweit haben in den letzten 5 Jahren eine production-ready LLM-Inferenz-Engine from-Scratch geschrieben.

Team-Aufbau

Solo-Founder mit aktiver Co-Founder-Suche

Profil gesucht: DACH-Embedded-BD/Sales mit Engineering-Netzwerk, 20–30 % Equity. Advisory-Board in Akquise: Embedded-Industrie-Veteran, B2B-SDK-Sales-Insider, DACH-VC-Operator.

Sitz: Neuss, NRW.

Kontakt

Erste technische Einschätzung in 3 Angaben.

Daraus lässt sich schnell ableiten, welcher Engagement-Tier für den Use-Case passt — und ob ein 25-Minuten Discovery-Call oder eine schriftliche Anfrage der bessere Erst-Schritt ist.