Zum Inhalt

AI

Unser LLMaaS Gateway (Large Language Models as a Service) bietet hochperformanten Zugriff auf eine kuratierte Auswahl aktueller Open-Weight-Sprachmodelle. Die Inferenz läuft vollständig auf unserer in der Schweiz betriebenen GPU-Infrastruktur — Ihre Prompts, Embeddings und generierten Antworten verlassen die Schweiz nicht.

Verfügbare Modelle

Aktuell produktiv über das Gateway erreichbar:

Top Modelle

  • MiniMax-M2.7
  • Deepseek v3.2
  • Qwen3.6-35B-A3B
  • Gemma4

Weitere verfügbare Modelle

  • apertus-70b
  • apertus-8b
  • bge-reranker
  • deepseekr1-670b
  • gpt-oss-120b
  • kimi-k2
  • inference-llama4-maverick
  • inference-qwen3-vl-235b
  • qwen3-embedding-4b
  • qwen3-reranker-4b
  • voxtral-4b-tts-2603
  • whisper-large-v3-turbo

Weitere Top-Modelle befinden sich in der Evaluierungsphase und werden in kürze hinzugefügt. Alle Modelle sind nach demselben Format ansprechbar (provider/model, z.B. ew/minimax27), so dass ein Modellwechsel in der Regel ein Einzeiler bleibt.

OpenAI-kompatible API

Das Gateway exponiert eine OpenAI-kompatible REST-Schnittstelle — bestehender Code, der das OpenAI-SDK (Python, Node, Go, …) nutzt, kann ohne Anpassung der Anwendungslogik auf unsere Endpoints zeigen:

  • POST /v1/chat/completions — Chat- und Reasoning-Anfragen, inkl. Streaming und Tool-Calling
  • POST /v1/embeddings — Vektor-Embeddings für RAG, semantische Suche, Klassifikation
  • POST /v1/rerank — Re-Ranking von Suchergebnissen für höhere Trefferqualität
  • GET /v1/models — Liste aller aktuell verfügbaren Modelle

→ Vollständige Schnittstellenbeschreibung unter API Reference.

Virtuelle Keys & Governance

Das Gateway unterstützt Virtual Keys (Prefix sk-bf-...) für feingranulare Zugriffskontrolle, Modell-Routing und Verbrauchsverfolgung pro Team, Projekt oder Anwendungsfall. Das Self-Service-Management der virtuellen Keys wird in Kürze im Cloud Service Portal verfügbar sein — bis dahin werden Keys auf Anfrage durch unseren Support ausgestellt.

Typische Anwendungsfälle

  • RAG-Pipelines — Dokumentensuche mit Embeddings + Rerank, kontextbasierte Antwortgenerierung
  • Code-Assistenz — interne Entwicklerwerkzeuge, Code-Review und Refactoring-Vorschläge
  • Klassifikation & Extraktion — strukturierte Datenextraktion aus E-Mails, Berichten, Tickets
  • Agenten & Automatisierung — Tool-Calling-fähige Workflows mit kontrollierten Schreibrechten
  • Mehrsprachige Inhalte — Übersetzung und Lokalisierung mit Fokus auf DACH-Sprachräume

Early Adopter Access

Möchten Sie LLMaaS bereits jetzt für interne Pilotprojekte evaluieren? Das Gateway wird aktuell schrittweise für ausgewählte Early Adopter geöffnet.

Zugang anfragen

Wenden Sie sich an unseren Support, um Zugangsdaten, einen API-Key sowie passende Modellempfehlungen für Ihren Anwendungsfall zu erhalten.