LLM On-Premise Hosting in Österreich: Ihr Leitfaden für DSGVO-konforme KI
ChatGPT, Claude, Gemini – die großen KI-Modelle laufen alle in der Cloud, meist auf US-Servern. Für viele österreichische Unternehmen ist das ein Problem: Datenschutz, DSGVO-Compliance, Geschäftsgeheimnisse und die Anforderungen des EU AI Act machen Cloud-Lösungen riskant. Die Alternative: LLMs selbst hosten – on-premise in Österreich oder in EU-Rechenzentren. Wie funktioniert das? Was kostet es? Und welche Optionen gibt es speziell für österreichische Unternehmen?
Warum überhaupt selbst hosten?
Die Nutzung von Cloud-basierten KI-Diensten wie ChatGPT oder Claude bedeutet:
- Ihre Daten verlassen das Unternehmen und landen auf fremden Servern
- Bei vielen Anbietern landen Daten in den USA – mit unklarem Datenschutz-Status
- Ihre Prompts und Ergebnisse könnten theoretisch für Training verwendet werden
- Sie haben keine Kontrolle über Verfügbarkeit, Preise oder Features
- Bei sensiblen Informationen (Kundendaten, Geschäftsgeheimnisse, Gesundheitsdaten) riskieren Sie DSGVO-Verstöße
Die drei Hosting-Modelle im Vergleich
1. API-Nutzung (Cloud, externe Anbieter)
Wie es funktioniert: Sie nutzen ChatGPT, Claude oder Gemini per API. Die Modelle laufen komplett auf den Servern des Anbieters.
Vorteile: Sofort einsatzbereit, keine Hardware nötig, immer neueste Modelle, geringe IT-Aufwände
Nachteile: Keine Datenkontrolle, Abhängigkeit vom Anbieter, oft US-Server, laufende Kosten pro Token, DSGVO-Risiken
Geeignet für: Unkritische Anwendungen, Prototyping, kleine Teams ohne eigene IT-Infrastruktur
2. Cloud-Hosting (Managed, EU-Anbieter)
Wie es funktioniert: Ein EU-Anbieter hostet Open-Source-LLMs (z.B. Llama, Mistral, DeepSeek) in europäischen Rechenzentren für Sie.
Vorteile: DSGVO-konform, keine eigene Hardware, professionelles Management, flexible Skalierung
Nachteile: Laufende Kosten, begrenzte Kontrolle, Vertrauen in Drittanbieter nötig
Geeignet für: Mittelständische Unternehmen, die DSGVO-Compliance brauchen, aber keine eigene GPU-Infrastruktur aufbauen wollen
3. On-Premise Hosting (eigene Server)
Wie es funktioniert: Sie installieren Open-Source-LLMs auf Ihren eigenen Servern in Ihrem Rechenzentrum oder in einem von Ihnen kontrollierten Colocation-Setup.
Vorteile: Maximale Datenkontrolle, keine externen Datenflüsse, volle Anpassbarkeit, langfristig günstig bei hohem Volumen
Nachteile: Hohe Investitionskosten, eigene IT-Expertise nötig, Wartungsaufwand, Strom- und Kühlungskosten
Geeignet für: Große Unternehmen, Banken, Versicherungen, Gesundheitssektor, öffentliche Verwaltung, KRITIS-Betreiber
Hosting-Optionen für österreichische Unternehmen
1. KARLI.AI – Made in Austria
KARLI ist ein auf Unternehmen spezialisiertes LLM, das vollständig in Österreich und EU-Rechenzentren gehostet wird.
Was KARLI bietet:
- Hosting ausschließlich in Österreich und DACH-Raum
- 100% DSGVO-konform
- Granulares Berechtigungssystem
- Anpassbare KI-Modelle für jeden Use Case
- Einsetzbar als Büroassistent oder im Kundenservice
- LLM Hub: Zugriff auf verschiedene Modelle
Besonders geeignet für: Österreichische KMUs und Großunternehmen, die eine schlüsselfertige Lösung mit lokalem Support wollen.
2. IONOS Cloud AI Model Hub
IONOS, ein führender europäischer Cloud-Anbieter, hostet LLMs in deutschen und europäischen Rechenzentren.
Features:
- Hosting in Deutschland und Europa
- Daten bleiben Ihre Daten – keine Nutzung für Training
- Kein Zugriff durch Dritte, volle Datensouveränität
- Zugriff auf verschiedene Open-Source-Modelle (Llama, Mistral, etc.)
- Vektordatenbanken für RAG (Retrieval-Augmented Generation)
- Pay-per-Use-Modell (Token-basiert)
Besonders geeignet für: Unternehmen, die flexible Cloud-Lösungen mit EU-Hosting bevorzugen.
3. Open Telekom Cloud – AI Foundation Services
Die Deutsche Telekom bietet über ihre Open Telekom Cloud verschiedene LLMs als Managed Service.
Verfügbare Modelle:
- Meta Llama 3.3
- Mistral Small 3
- DeepSeek R1
- Auf Anfrage: GPT-4o, Claude 3, Gemini 1.5 Pro
Besondere Features:
- DSGVO-konforme EU-Hosting-Plattform
- RAG-Service mit eigener Vektordatenbank
- T-Systems Smart Chat: Gebrauchsfertige Browser-Oberfläche
- LLM Fine-Tuning-Service (LoRA, DPO/RLHF)
- Geteilte (günstiger) oder dedizierte (privat) Varianten
Besonders geeignet für: Große Enterprises und öffentliche Verwaltung, die auf etablierte Telekom-Infrastruktur setzen.
4. Mittwald AI-Hosting – Deutschland
Mittwald, ein deutscher Hosting-Anbieter, bietet AI-Hosting speziell für Agenturen und Freelancer.
Was macht Mittwald besonders:
- 100% DSGVO-konform, gehostet in Deutschland
- Keine Speicherung von Trainingsdaten
- Open-Source-LLMs verfügbar
- Integration mit Open WebUI für einfaches Chatten
- API-Key-basierter Zugriff
- Derzeit in Beta-Version kostenfrei, später Festpreis-Modell
Besonders geeignet für: Agenturen, Freelancer und kleinere Unternehmen, die einfache, kostengünstige EU-Lösungen suchen.
5. Microsoft lokales Hosting ab 2026
Microsoft kündigte im November 2025 an, dass ab 2026 Microsoft 365 Copilot in 15 Ländern (inkl. Deutschland, aber nicht Österreich) mit Datenverarbeitung im jeweiligen Land verfügbar sein wird.
On-Premise: Hardware-Anforderungen und Kosten
Wenn Sie LLMs komplett selbst hosten wollen, brauchen Sie leistungsstarke Hardware:
Minimal-Setup (kleine Modelle, <13B Parameter)
- GPU: NVIDIA RTX 4070 Ti oder ähnlich (16 GB VRAM)
- RAM: 32-64 GB
- CPU: Moderne Multi-Core (z.B. AMD Ryzen 9 oder Intel i9)
- Storage: 1 TB SSD (NVMe)
- Kosten: ca. 3.000-5.000 €
Mittleres Setup (Modelle bis 70B Parameter)
- GPU: 2x NVIDIA RTX 4090 oder A6000 (48 GB VRAM pro GPU)
- RAM: 128 GB
- CPU: Server-Grade (AMD EPYC oder Intel Xeon)
- Storage: 2 TB NVMe SSD
- Kosten: ca. 15.000-25.000 €
🌟 NVIDIA DGX Spark – Der Desktop-AI-Supercomputer (NEU 2025!)
Die perfekte Lösung für Unternehmen, die On-Premise-KI wollen, ohne gleich ein Rechenzentrum aufzubauen:
- Chip: NVIDIA GB10 Grace Blackwell Superchip
- Unified Memory: 128 GB LPDDR5x (gemeinsam für CPU & GPU)
- CPU: 20 ARM Cores (10x Cortex-X925 Performance + 10x Cortex-A725 Efficiency)
- AI-Performance: 1 PetaFLOP (FP4 Precision)
- Storage: 4 TB NVMe SSD (NVIDIA) oder 1 TB (ASUS)
- Form Factor: Kompakt (150 × 150 × 50.5 mm) – passt auf jeden Schreibtisch!
- Modellgröße: Bis 200 Milliarden Parameter lokal
- Clustering: 2 DGX Spark verbindbar für bis zu 405B Parameter
- Kosten: 2.999 € (ASUS, 1TB) bis 3.999 € (NVIDIA, 4TB)
• Plug & Play: Vorinstalliert mit NVIDIA AI Software Stack (Docker, NIM, Ollama, SGLang)
• 100% On-Premise: Alle Daten bleiben im Unternehmen – DSGVO-konform
• Energieeffizient: Nur ca. 300W (vs. 3.500W bei Server-Lösungen)
• Leise: Kann im Büro stehen, keine spezielle Kühlung nötig
• Einfache Skalierung: Lokal entwickeln, dann in Cloud/Datacenter deployen
• Unterstützte Modelle: DeepSeek R1, Llama 3.3 70B, Mistral, Qwen, Gemma 3 27B, GPT-OSS 120B
Verfügbar bei: NVIDIA direkt, ASUS (Ascent GX10), Dell, HP, Lenovo, MSI, Gigabyte
Besonders geeignet für:
- KMUs, die schnell in On-Premise-KI einsteigen wollen
- Data Scientists & AI-Entwickler für Prototyping und Fine-Tuning
- Forschungseinrichtungen und Universitäten
- Agenturen, die KI-Lösungen für Kunden entwickeln
- Unternehmen mit strengen Datenschutz-Anforderungen
Beispiel-Anwendungen:
- Lokaler ChatBot mit unternehmenseigenem Wissen (RAG)
- Code-Completion für Entwicklerteams (wie GitHub Copilot, aber privat)
- Automatisierte Dokumentenanalyse (Verträge, Rechnungen, Berichte)
- Kundenservice-Automation ohne Cloud-Abhängigkeit
- Medical AI für Kliniken (ELGA-konform)
Enterprise Setup (große Modelle, >100B Parameter)
- GPU: 4-8x NVIDIA H100 oder A100 (80 GB VRAM pro GPU)
- RAM: 256-512 GB
- CPU: Multi-Socket Server (2x AMD EPYC)
- Storage: 10 TB+ NVMe RAID
- Cluster-Infrastruktur für Hochverfügbarkeit
- Kosten: 100.000-500.000 € (je nach Modellgröße und Redundanz)
Open-Source-Modelle: Was steht zur Verfügung?
Die gute Nachricht: Es gibt hervorragende Open-Source-LLMs, die Sie selbst hosten können:
Meta Llama 3.3 (70B)
Eines der besten Open-Source-Modelle, vergleichbar mit GPT-4 in vielen Aufgaben. Lizenz erlaubt kommerzielle Nutzung.
Mistral (7B, Small 3, Large)
Französisches Open-Source-Modell, sehr effizient. Exzellent für europäische Sprachen.
DeepSeek R1 (671B MoE, 37B aktiv)
Chinesisches Reasoning-Modell, Open Source (MIT-Lizenz). Sehr stark in Mathematik und Code. Kann ohne Zensur gehostet werden.
Qwen 2.5 (72B)
Alibabas Open-Source-Modell, sehr gut für multilinguale Aufgaben.
Spezialisierte Modelle
- Code: CodeLlama, StarCoder, Qwen2.5-Coder
- Deutsch: LeoLM, GermanGPT
- Medizin: Med-PaLM-basierte Open-Source-Varianten
RAG: Das Geheimnis erfolgreicher LLM-Implementierungen
RAG (Retrieval-Augmented Generation) ist der Schlüssel, um aus einem generischen LLM einen unternehmens-spezifischen Assistenten zu machen:
Wie RAG funktioniert:
- Ihre Unternehmensdokumente (PDFs, Word, Excel, etc.) werden in eine Vektordatenbank eingespeist
- Bei einer Anfrage durchsucht das System zuerst Ihre Dokumente nach relevanten Informationen
- Diese Informationen werden dem LLM zusammen mit der Frage gegeben
- Das LLM antwortet basierend auf Ihren tatsächlichen Daten, nicht nur auf Trainingswissen
Vorteil: Keine Halluzinationen mehr bei unternehmensinternen Fragen. Das LLM arbeitet mit Ihren echten Daten.
Implementierung: Die ersten Schritte
1. Use Case definieren: Wofür genau brauchen Sie das LLM? Kundenservice? Dokumentenanalyse? Code-Generierung?
2. Hosting-Modell wählen: Cloud (IONOS, Telekom), Managed (KARLI), oder On-Premise?
3. Modell auswählen: Llama für Allzweck, Mistral für Effizienz, DeepSeek für Reasoning?
4. Pilot starten: Klein anfangen (1-2 Abteilungen), Erfahrungen sammeln, iterieren.
5. RAG implementieren: Unternehmensdaten einbinden für maximale Relevanz.
6. Governance etablieren: Zugriffsrechte, Logging, Compliance-Dokumentation.
7. Schulung: Mitarbeiter müssen lernen, wie man das System optimal nutzt.
Kosten-Vergleich: Cloud vs. On-Premise
Beispiel-Szenario: 50 Mitarbeiter, moderate Nutzung
Cloud (IONOS/Telekom):
- Monatliche Kosten: ca. 500-2.000 € (je nach Token-Verbrauch)
- Jahreskosten: 6.000-24.000 €
- Keine Anfangsinvestition, flexibel skalierbar
NVIDIA DGX Spark (kompaktes On-Premise):
- Anfangsinvestition: 2.999-3.999 € (einmalig)
- Laufende Kosten (Strom ~300W, Wartung): ca. 100-200 €/Monat
- Jahreskosten Jahr 1: 4.200-6.400 €
- Jahreskosten ab Jahr 2: 1.200-2.400 €
- Break-Even vs. Cloud: Bereits nach 6-12 Monaten!
- Perfekt für: KMUs, Agenturen, kleine Forschungsteams
On-Premise (mittleres Setup):
- Anfangsinvestition: 20.000-30.000 €
- Laufende Kosten (Strom, Wartung, Personal): ca. 1.000-2.000 €/Monat
- Jahreskosten Jahr 1: 32.000-54.000 €
- Jahreskosten ab Jahr 2: 12.000-24.000 €
- Ab Jahr 3 oft günstiger als Cloud bei hohem Volumen
Rechtliche Aspekte für Österreich
Beim LLM-Hosting in Österreich müssen Sie folgende rechtliche Rahmenbedingungen beachten:
- DSGVO: EU-Hosting oder On-Premise garantiert Datenschutz-Compliance
- EU AI Act: Ab August 2026 gelten strenge Regeln für Hochrisiko-KI. Transparenz und Dokumentation sind Pflicht
- NIS2: Kritische Infrastruktur muss Cybersecurity-Anforderungen erfüllen. Self-Hosting erleichtert Compliance
- Branchenspezifisch: Banken (BWG), Versicherungen (VAG), Gesundheit (ELGA) haben zusätzliche Vorgaben
- Betriebsrat: Bei Mitarbeiter-Monitoring durch KI ist Betriebsrat einzubinden
Fazit: Der richtige Weg für Ihr Unternehmen
LLM-Hosting in Österreich ist machbar, sinnvoll und zunehmend notwendig. Die richtige Lösung hängt von Ihrer Situation ab:
- Start-ups & Einzelkämpfer: Cloud-Lösungen wie Mittwald oder IONOS für minimale Einstiegshürde
- Kleine Unternehmen (< 20 MA): NVIDIA DGX Spark – beste Preis-Leistung, schneller ROI
- Mittelstand (20-200 MA): KARLI.AI, DGX Spark Cluster (2 Geräte), oder IONOS/Telekom Cloud
- Großunternehmen (200-1000 MA): Open Telekom Cloud oder Hybrid-Ansatz
- Konzerne (>1000 MA): Komplett On-Premise mit Enterprise-Hardware
- Regulierte Branchen (Banken, Versicherungen, Health): On-Premise oder dedizierte Private Cloud
- Öffentliche Verwaltung: Microsoft lokales Hosting (ab 2026) oder österreichische Anbieter wie KARLI
- Forschung & Entwicklung: DGX Spark für Prototyping, später auf größere Systeme skalieren
Der DGX Spark ist ein Game-Changer für österreichische KMUs: Für unter 4.000 € bekommen Sie einen vollwertigen AI-Supercomputer, der 100% on-premise läuft, DSGVO-konform ist, und Modelle bis 200B Parameter schafft. Das ist die einfachste und günstigste Möglichkeit, echte KI-Souveränität zu erreichen – ohne Cloud-Abhängigkeit, ohne Vendor-Lock-in, ohne Kompromisse beim Datenschutz.
Die Technologie ist ausgereift, die Anbieter sind verfügbar, und die rechtlichen Rahmenbedingungen machen EU-Hosting zur Notwendigkeit. 2026 wird das Jahr, in dem On-Premise-LLMs vom Nischenthema zum Standard werden – und der DGX Spark macht den Einstieg so einfach wie nie zuvor.
LLM-Hosting für Ihr Unternehmen
Top AI Consult berät Sie bei der Auswahl der richtigen Hosting-Lösung, unterstützt bei der Implementierung und hilft Ihnen, DSGVO-konform und effizient zu arbeiten. Von der Strategie über die technische Umsetzung bis zum laufenden Betrieb.
Starten Sie jetzt Ihre KI-Reise – Made in Austria!