AI

Unser LLMaaS Gateway (Large Language Models as a Service) bietet hochperformanten Zugriff auf eine kuratierte Auswahl aktueller Open-Weight-Sprachmodelle. Die Inferenz läuft vollständig auf unserer in der Schweiz betriebenen GPU-Infrastruktur — Ihre Prompts, Embeddings und generierten Antworten verlassen die Schweiz nicht.

Verfügbare Modelle

Aktuell produktiv über das Gateway erreichbar:

Top Modelle

GLM-5.2
Deepseek v3.2
Qwen3.6-35B-A3B
Gemma4

Weitere verfügbare Modelle

apertus-70b
apertus-8b
bge-reranker
deepseekr1-670b
gpt-oss-120b
kimi-k2
inference-llama4-maverick
inference-qwen3-vl-235b
qwen3-embedding-4b
qwen3-reranker-4b
voxtral-4b-tts-2603
whisper-large-v3-turbo

Weitere Top-Modelle befinden sich in der Evaluierungsphase und werden in kürze hinzugefügt. Alle Modelle sind nach demselben Format ansprechbar (provider/model, z.B. ew/minimax27), so dass ein Modellwechsel in der Regel ein Einzeiler bleibt.

OpenAI-kompatible API

Das Gateway exponiert eine OpenAI-kompatible REST-Schnittstelle — bestehender Code, der das OpenAI-SDK (Python, Node, Go, …) nutzt, kann ohne Anpassung der Anwendungslogik auf unsere Endpoints zeigen:

POST /v1/chat/completions — Chat- und Reasoning-Anfragen, inkl. Streaming und Tool-Calling
POST /v1/embeddings — Vektor-Embeddings für RAG, semantische Suche, Klassifikation
POST /v1/rerank — Re-Ranking von Suchergebnissen für höhere Trefferqualität
GET /v1/models — Liste aller aktuell verfügbaren Modelle

→ Vollständige Schnittstellenbeschreibung unter API Reference.

Virtuelle Keys & Governance

Das Gateway unterstützt Virtual Keys (Prefix sk-bf-...) für feingranulare Zugriffskontrolle, Modell-Routing und Verbrauchsverfolgung pro Team, Projekt oder Anwendungsfall. Das Self-Service-Management der virtuellen Keys wird in Kürze im Cloud Service Portal verfügbar sein — bis dahin werden Keys auf Anfrage durch unseren Support ausgestellt.

Typische Anwendungsfälle

RAG-Pipelines — Dokumentensuche mit Embeddings + Rerank, kontextbasierte Antwortgenerierung
Code-Assistenz — interne Entwicklerwerkzeuge, Code-Review und Refactoring-Vorschläge
Klassifikation & Extraktion — strukturierte Datenextraktion aus E-Mails, Berichten, Tickets
Agenten & Automatisierung — Tool-Calling-fähige Workflows mit kontrollierten Schreibrechten
Mehrsprachige Inhalte — Übersetzung und Lokalisierung mit Fokus auf DACH-Sprachräume

Early Adopter Access

Möchten Sie LLMaaS bereits jetzt für interne Pilotprojekte evaluieren? Das Gateway wird aktuell schrittweise für ausgewählte Early Adopter geöffnet.

Zugang anfragen

Wenden Sie sich an unseren Support, um Zugangsdaten, einen API-Key sowie passende Modellempfehlungen für Ihren Anwendungsfall zu erhalten.