On-Premises KI-Systeme

Lösungen

Daten schützen. Souveränität bewahren. KI in vollem Umfang nutzen.

On-Premises-KI vereint, was bei Cloud-Lösungen ein Widerspruch bleibt: volle Leistungsfähigkeit und vollständiger Datenschutz. Alle Daten verbleiben in der eigenen Infrastruktur. DSGVO-Konformität ergibt sich aus der Architektur, nicht aus Vertragsklauseln. Externe Abhängigkeiten entstehen gar nicht erst. Und die KI-Leistung steht Cloud-Lösungen in nichts nach.

Lokale KI Basis mit Cloud Connector

Lokale KI mit Basisfunktionen wie Textextraktion, Sprache-zu-Text und Textgenerierung sowie Chat-Anwendungen – ausgestattet mit dem elmtree Cloud Connector. Dieser pseudonymisiert und anonymisiert Daten, bevor sie zur Weiterverarbeitung an eine leistungsstarke Cloud-KI übergeben werden. DSGVO-konform und mit vollem Schutz personenbezogener Daten.

  • elmtree Chat – KI-Assistenz von jedem Arbeitsplatz im Netzwerk
  • Textextraktion, Sprache-zu-Text, Textgenerierung
  • Cloud Connector – pseudonymisierte Nutzung großer Cloud-KI-Modelle bei vollem Datenschutz

Ideal als Einstieg in die KI-Nutzung mit der Möglichkeit, bei Bedarf auf die volle Leistung großer Cloud-Modelle zuzugreifen – ohne Kompromisse beim Datenschutz.

Strix Halo System
Ab 835 Euro mtl. inkl. elmtree Chat und Cloud Connector
zzgl. MwSt.
→ Anfragen

Lokale KI Medium

Ein Cluster aus bis zu vier NVIDIA DGX Spark ermöglicht den Einstieg in die lokale KI-Nutzung. Leistungsfähige Modelle wie Nemotron-3-Super, GPT-OSS-120B oder Qwen3.5-122B laufen vollständig auf eigener Hardware.

  • elmtree Chat – KI-Assistenz von jedem Arbeitsplatz im Netzwerk
  • Dokumentenverarbeitung – intelligente Suche, Datenextraktion, Digitalisierung von Scans, Pseudonymisierung
  • Transformation zwischen Formaten

Feature- und Usability-Adaption an den konkreten Bedarf ist vorbereitet und Teil des Projekts. Geeignet für Abteilungen mit moderatem, nicht dauerhaft hochparallelem Verarbeitungsbedarf.

NVIDIA DGX Spark, geclustert
Ab 2.180 Euro mtl. inkl. Setup und SLA Basis
zzgl. MwSt.
→ Anfragen

On-Premises SOTA KI

Ein Cluster bis zu vier Mac Studio bietet den Speicher, um die größten Open-Source-Modelle auf ChatGPT-Niveau lokal zu betreiben: GLM-5, Kimi K2.5, Minimax M2.5 oder DeepSeek V3.2.

  • Anspruchsvollste und vielschichtige Aufgaben – Auswertung, Analyse, Generierung von Texten und Dokumenten
  • Review und Generierung von Code
  • Dokumentenverarbeitung – Suche, Extraktion, Digitalisierung, Formatkonvertierung

State-of-the-Art-Leistung, vollständig lokal. Von allen Arbeitsplätzen im Netzwerk erreichbar.

Mac Studio Cluster
Ab 3.390 Euro mtl. inkl. Setup und SLA Basis
zzgl. MwSt.
→ Anfragen

Lokale KI Performance

Multiple NVIDIA RTX Pro 6000 vereinen hohe Rechenleistung mit großem Speicher. Modelle wie Qwen3.5-397B laufen hier ebenso wie Nemotron-3-Super oder GPT-OSS-120B – mit sehr hoher Performance.

  • Multi-User-Betrieb – viele gleichzeitige Zugriffe ohne Leistungsverlust
  • Batch-Processing von Dokumenten in großem Volumen
  • Alle Softwareausstattungen der Basis-Variante, deutlich mehr Rechenleistung

Ausgelegt für Szenarien mit dauerhaft hohem Verarbeitungsvolumen und parallelen Anfragen.

Multi NVIDIA RTX Pro 6000 Blackwell
Ab 4.880 Euro mtl. inkl. Setup und SLA Basis
zzgl. MwSt.
→ Anfragen

On-Premises KI Maximum

Riesiger Speicher trifft auf maximale Rechenleistung. Dieses System setzt keine Grenzen – hier lässt sich alles betreiben, was im Bereich lokaler KI technisch möglich ist.

  • Größte verfügbare Modelle mit voller Geschwindigkeit
  • Nahezu unbegrenzter Multi-User-Betrieb und Batch-Processing
  • Alle Softwareausstattungen und Anwendungsszenarien

Die höchste Ausbaustufe für Organisationen mit maximalen Anforderungen an Leistung und Kapazität.

System mit 8× NVIDIA B200
Preis auf Anfrage
→ Anfragen

Drei Komponenten.
Ein System.

Komponente 01

Lokal laufende Large Language Models

Sprachmodelle auf dem neuesten Stand. Vollständig auf eigener Hardware. Kein API-Call nach außen. Die Rechenleistung bleibt im Haus – ebenso wie alle Daten, die verarbeitet werden.

Komponente 02

Spezialisierte Agenten

Orchestrieren Abläufe, steuern Aufgaben, schaffen Determinismus. Struktur, Nachvollziehbarkeit, Verlässlichkeit. Agenten machen aus Sprachmodellen produktive Systeme.

Komponente 03

RAG-Pipeline

Verbindet LLM-Leistung mit konkreten Informationen aus dem eigenen Dokumentenbestand. Antworten auf Basis belastbarer Fakten – nicht auf Basis von Trainingsdaten aus dem Internet.

"Alle Daten bleiben
im eigenen Haus."