Eure Hardware soll per Sprache bedienbar werden
Komplexe Befehle, Konfiguration, Diagnose, Multi-Step-Aktionen — Nutzer geben Anweisungen, das System plant und führt aus. Nicht Sub-Sekunden-Voice-Assistant.
Embedded Agentic-RAG-Platform · Capability Compensation
Geisten ist eine drei-schichtige Open-Core-Platform für Embedded-Agentic-AI: Engine (C23, statisch linkbar, ARM-NEON-optimiert) plus Agent-Framework (Tool-Calling + RAG + ROS-2-Bridges) plus Modelle (Qwen3, Gemma 3, Llama 3.2, Phi-3-mini — Custom-Distillation ab 2027). Für Engineering-Teams, die LLMs auf Robotik-, Industrie- und Audio-Hardware deployen wollen — ohne Cloud-Abhängigkeit, ohne GPU-Zwang, ohne Audit-Risiko.
Capability-Compensation-These
Für Tool-Use, Retrieval und strukturierte Ausgabe in DACH-Robotik, Industrial-Control, Field-Service liefert ein 0.5–1.7B-Modell mit Agentic-RAG-Framework ≥ 85 % der GPT-4-Mini-Quality — auf ARM-CPU, deterministisch, audit-tauglich. Was wir nicht beanspruchen: offenes Reasoning (MMLU), Code-Generation (HumanEval), kreative Synthese. Das bleibt Cloud-LLM-Domain. Unser Geisten-Bench misst monatlich Stärken und Schwächen transparent.
Komplexe Befehle, Konfiguration, Diagnose, Multi-Step-Aktionen — Nutzer geben Anweisungen, das System plant und führt aus. Nicht Sub-Sekunden-Voice-Assistant.
EU-AI-Act (Aug 2026), CRA (Dez 2027) und DSGVO Art. 22 machen Cloud-LLM in Industrial-Setups oft unzulässig. On-Device-Deployment löst das strukturell.
Raspberry Pi 5, Jetson Orin Nano, Rockchip RK3588, Hailo-8L, Cortex-A-Class-Devices. Kein GPU-Zwang, kein NVIDIA-Lock-in.
Agenten-Review
Der Review ist für Teams gedacht, die ein konkretes Gerät, eine Maschine, ein Produkt oder einen lokalen Prozess im Blick haben. Wir bewerten nicht abstrakt "KI", sondern welche Aufgabe ein lokaler Agent auf der Zielhardware zuverlässig übernehmen kann, welche Modellklasse dafür passt und welcher nächste Schritt wirtschaftlich sinnvoll ist.
Raspberry Pi 5, Industrie-PC, ARM/x86-System, internes On-Prem-Setup oder bereits verbaute Hardware mit engen Ressourcen.
Mit Nutzern in natürlicher Sprache arbeiten, Text verstehen, Sprache erkennen, Bilder auswerten, Sensordaten einordnen oder lokale Workflows ausführen.
Wenn ein spezialisierter lokaler Agent fachlich genug kann und Datenschutz, DSGVO-Anforderungen, Latenz oder Betriebskosten den lokalen Ansatz rechtfertigen.
Eine klare Empfehlung: Pilot bauen, kleiner starten, technische Vorarbeit leisten oder den lokalen Agenten bewusst nicht verfolgen.
Engagement-Tiers
Vier Engagement-Formate mit transparenten Preisen, jeweils auf eine Schicht der Geisten-Plattform fokussiert. Der Prozess ist immer derselbe — Review, Pilot, Stack, Betrieb — der Umfang skaliert mit dem Tier. Kein SaaS-Abo, kein Cloud-Lock-in, keine versteckten Stundenkontingente.
Wir klären Ziel-Hardware, Modell-Familie, Use-Case, Latenz-Anforderungen, Compliance-Bedarf und wirtschaftlichen Fit.
Inferenz läuft auf der Ziel-Hardware im dokumentierten Mess-Setup. Latenz, Memory, Quality validiert.
Open-Weight-Modell, Geisten-Engine, eventuell Fine-Tuning, Bridges (ROS-2 / HTTP) und Tool-Anbindung werden zusammengeführt.
Deployment, Updates, Monitoring. 12 Monate Maintainer-Support inklusive, Verlängerung €3k/Jahr.
Wann sinnvoll: Wenn euer Modell gewählt ist (Qwen3, Gemma 3, Llama 3.2, Phi-3-mini), aber auf der Ziel-Hardware nicht performant läuft.
Wann sinnvoll: Wenn euer Use-Case deutsche Sprachqualität oder Domain-Vokabular plus Multi-Step-Tool-Use braucht — Capability-Compensation-These in der Praxis.
Wann sinnvoll: Wenn Open-Weight-Lizenzen nicht passen oder Memory-Budget < 200 MB — wir destillieren euer Modell via HALO/CAB-Pipeline.
Wann sinnvoll: Wenn ihr nur einen Audit, einen Mid-Engagement-Pivot oder kleinere Engineering-Hilfe braucht.
Use-Case-Familien
Diese vier Use-Case-Familien sind die Capability-Compensation-Sweet-Spots: Tool-Use, Retrieval, strukturierte Ausgabe — Tasks, bei denen ein kleines Modell mit Agentic-RAG-Framework die Lücke zu Cloud-Large-LLMs schließt. Geisten ist nicht für Sub-Sekunden-Voice-Assistant-Reaktionen wie Alexa/Siri und nicht für offenes Reasoning (MMLU/GSM8K) — das bleibt Cloud-LLM-Domain.
Komplexe Befehle, bei denen der Nutzer sowieso auf eine Antwort wartet — Eco-Modus erklären, Zeitprogramme setzen, Workflows einrichten.
Beispiele: Robotik („Programmiere Pick-Position bei Werkstück Y"), Hausgerät („Wasche 60°C, aber starte erst morgen 5 Uhr"), HVAC („Heizung morgens 6 Uhr auf 21°"). Latenz-Toleranz: 2–4 s.
Abfragen und Erklärungen, bei denen Inhalt wichtiger ist als Sub-Sekunden-Reaktion — Fehlercode-Erklärung, Verbrauchsanalyse, Wartungs-Diagnose.
Beispiele: Industrial-Control („Erkläre Fehler 4023"), Hausgerät („Wann ist die Maschine fertig und warum dauert es länger?"), Field-Service („Diagnose-Anweisung für Symptom X bei Modell Y"). Latenz-Toleranz: 2–5 s.
Mehrere Schritte aus einem Befehl: Plan, Ausführung, Rückmeldung. Hier wird LLM-Tool-Calling produktionsreif.
Beispiele: Smart-Home („Wenn Wäsche fertig, schicke Nachricht und schalte Trockner ein"), Robotik („AGV 1 fertig → AGV 2 zu Station C senden"), Voice-Picking („Nimm 3× Teil A, prüfe Bestand, drucke Etikett"). Latenz-Toleranz: 3–5 s.
Sprache wird zu strukturiertem Output — Memos, Reports, Protokolle. User-Eingabe und Ergebnis-Verarbeitung sind zeitlich entkoppelt.
Beispiele: Field-Service („Reparatur-Protokoll: Wärmetauscher getauscht, 45 Min, Teile siehe Liste"), Industrial („Schicht-Report aus Sensor-Events"), Audio-Hardware („Voice-Memo zu Aufgabenliste strukturieren"). Latenz-Toleranz: 5–15 s.
Wirtschaftlicher Nutzen
Embedded-LLM-Engineering ist 2026 eine knappe Skill-Kombination (< 500 Engineers weltweit). Inhouse-Aufbau dauert 12–18 Monate und verbrennt typisch €270k Loaded Cost. Geisten-Engagements lösen das in 3–7 Wochen.
ARM-NEON-Quantisierung + LLM-Engineering + Embedded-Deployment in einer Person ist global rar (< 500 Engineers weltweit). Inhouse-Aufbau kostet typisch 1,5 FTE × 18 Monate × €120k Loaded Cost = ~€270k. Ein Geisten-Engagement liefert in 3–7 Wochen für €8–40k.
200 Geräte × 1.000 Queries/Tag × Cloud-Inferenz-Preise ergeben ~€18.000/Monat OpEx pro Roboter-Flotte. On-Device-Deployment ist eine Einmal-Investition statt laufender Kosten — und spart zusätzlich ~95 % Energie pro Inferenz-Query gegenüber Cloud-LLM.
~10.000 Zeilen pures C23, statisch linkbar, deterministisches Memory-Modell. Was generische LLM-Engines mit ~70k Zeilen Template-C++ strukturell nicht leisten, ist hier Design-Prinzip. Audit-Whitepaper mit externem TÜV-Auditor in Q4 2026.
Cloud-LLM in Industrial-Setups kollidiert mit DSGVO Art. 22, EU-AI-Act Art. 6 + Annex III (ab August 2026) und CRA (ab Dezember 2027). On-Device-Deployment löst das strukturell. Event-sourced Sessions als DSGVO Art. 30 Verarbeitungsverzeichnis-ready.
Drei-Schicht-Plattform
Engine Q2/Q3 2026 · Agent Q4 2026 · Bench Q3 2026Statt drei konkurrierender Produkte: eine kohärente Open-Core-Platform mit drei Schichten. Engine (C23-Core, ARM-NEON-Quantisierung, GGUF-Reader) läuft auf Modellen (Open-Weight in Year 1 · Custom-Distillation als Tier 3 ab Year 2 · eigenes 0.7B Mamba-3 als OSS-Release Year 3). Das Agent-Framework addiert Tool-Calling, RAG und ReAct-Pattern — und schließt die Capability-Compensation-Lücke zu Cloud-LLMs auf vertikalen Tasks. Alle drei Schichten unter MIT-Lizenz.
Drei Schichten · alle MIT-OSS · GGUF-kompatibel
~10.000 Zeilen pures C23, statisch linkbar, NEON-W3A8/W4A8-Quantisierung handgeschrieben, GGUF-Reader (llama.cpp-Format-kompatibel). 100 % Engineering-Energie in ARM-NEON-Pfad. Kein GPU-Code. Cortex-A55 / A76 / A78AE Hardware-Rev-spezifische Kernels in Planung Q3 2027.
Native Tool-Calling, lokaler Vector-Index für Domain-RAG, Multi-Step-ReAct-Pattern, Eval-Harness. ROS-2-Bridge für Robotik, OPC-UA-Bridge für Industrial, HTTP/MQTT für Smart-Home. Public-Release Q4 2026 unter MIT-Lizenz.
Year 1: Qwen3 (0.5B / 1.7B / 4B), Gemma 3 (1B / 4B), Llama 3.2 (1B / 3B), Phi-3-mini — hand-getuned mit Quality-Garantie pro Hardware. Year 2: Custom-Distillation-as-a-Service (Tier 3, HALO/CAB). Year 3: eigenes 0.7B Mamba-3-A8W1.58 als Open-Weight-Release.
~10.000 Zeilen pures C23 (kein C++, keine Template-Metaprogrammierung), statisch linkbar, deterministisches Memory-Modell. Event-sourced Sessions als DSGVO Art. 30 Verarbeitungsverzeichnis. Audit-Whitepaper mit externem TÜV-Auditor (TÜV Süd oder SGS-TÜV Saar) in Vorbereitung Q4 2026 — Eignungsnachweis für ISO 26262, IEC 62304, DO-178C, MDR. Hypothesen-Validation der Capability-Compensation-These erfolgt monatlich transparent via Geisten-Bench mit vier Custom-Benches plus ehrlicher Limitations-Disclosure auf MMLU/GSM8K/HumanEval.
Positionierung — wofür ist Geisten gemacht?
Wir konkurrieren nicht head-on mit llama.cpp — für 80 % aller Use-Cases ist llama.cpp die richtige Wahl. Geisten ist komplementär: spezialisiert auf den Embedded-ARM-Use-Case-Ausschnitt, wo Audit-Tauglichkeit, statisches Linking und deterministische Latenz strukturell zählen.
Zielbranchen
Wir adressieren primär Engineering-Leads in Robotik-Startups, Audio-Hardware-OEMs, Industrial-Sensorik, Field-Service-Software- Vendoren und Medical-Embedded — Mittelstand-Setups mit Engineering-Lead-Authority, kurzen Sales-Zyklen und ARM-CPU- Ziel-Hardware unter 4 GB RAM.
Voice-Programmierung, Tool-Use-Action-Planning, Multimodal-Perception. Reference-Integration via ROS-2-Bridge. Targets: Magazino, Robco, Neura, Franka, Wandelbots, Synapticon, Roboception, Fruitcore und ~30 weitere DACH-Robotik-Firmen.
Voice-Status-Abfragen, Fehler-Erklärungen, Schicht-Reports, Maintenance-Diagnose. On-Device wegen Werks-IT-Trennung und DSGVO-Industrial-Setups. Audit-Track für IEC-62443-Anforderungen.
Multimodal-Audio-Action ohne Whisper-Cascade. Reference-Use-Cases: Voice-Memo-Strukturierung, Premium-Headset-Konfiguration, Sprach-Notiz-zu-Aufgabenliste.
Voice-Field-Reports, Diagnose-Helfer, Reparatur-Anweisungs-Lookup im Mobile/Tablet-Workflow. DSGVO-konform bei Kunden-/Maschinen-Daten der Endkunden.
Gründer
Dr. Germar Schlegel hat in experimenteller physikalischer Chemie promoviert — mit dem Schwerpunkt auf der Analyse von Zerfallsdynamiken in CdSe-Nanokristallen. Dabei ging es um schlecht gestellte inverse Probleme: aus verrauschten Messdaten das Maximum an belastbarer Information herauszuholen.
Genau dieses Prinzip treibt heute geisten an: aus begrenzten Ressourcen — gewöhnliche CPUs, kompakte Open-Weight-Modelle, lokale Infrastruktur — maximale Leistung herausholen.
Über 20 Jahre C-Engineering, davon mehrere Jahre Embedded- und Audio-Processing. Die eigene C23-Multimodal-Inferenz-Engine (~10.000 Zeilen, handgeschriebene NEON-W3A8/W4A8-Quantisierung, validiert auf Raspberry Pi 5) ist global rare Skill-Kombination — geschätzt < 200 Engineers weltweit haben in den letzten 5 Jahren eine production-ready LLM-Inferenz-Engine from-Scratch geschrieben.
Profil gesucht: DACH-Embedded-BD/Sales mit Engineering-Netzwerk, 20–30 % Equity. Advisory-Board in Akquise: Embedded-Industrie-Veteran, B2B-SDK-Sales-Insider, DACH-VC-Operator.
Sitz: Neuss, NRW.
Kontakt
Daraus lässt sich schnell ableiten, welcher Engagement-Tier für den Use-Case passt — und ob ein 25-Minuten Discovery-Call oder eine schriftliche Anfrage der bessere Erst-Schritt ist.