Einblick in Safina AI, Teil 1: Die Kernarchitektur für Echtzeit-Sprach-KI

Entdecke, wie Safina AI Echtzeit-Sprach-KI mit niedriger Latenz ermöglicht – von STT über LLM bis TTS, perfekt integriert für Dein Unternehmen.

Einblick in Safina AI, Teil 1: Die Kernarchitektur für Echtzeit-Sprach-KI Produkt
Karsten Kreh Karsten Kreh

Willkommen zur Serie “Einblick in Safina AI”! Hier bekommst Du einen exklusiven Blick hinter die Kulissen der Technologie, die unseren KI-Telefonassistenten antreibt. Die Serie richtet sich an technische Fachkräfte, Systemarchitekten und alle, die wissen wollen, wie robuste, unternehmenstaugliche KI-Lösungen für Sprache entstehen.In der heutigen Geschäftswelt geht es bei Telefonie längst nicht mehr nur ums Verbinden von Anrufen. Es geht darum, intelligente, reaktionsschnelle und automatisierte Erlebnisse zu schaffen. Eine KI, die Anrufe entgegennimmt, Termine bucht und komplexe Fragen beantwortet, braucht eine Architektur, die auf Geschwindigkeit, Zuverlässigkeit und tiefe Integration ausgelegt ist.In dieser Serie schauen wir uns die Schlüsselkomponenten von Safinas “Gehirn” und “Nervensystem” an.

Die Serie “Einblick in Safina AI”

Die Herausforderung: Echtzeitgespräche sind mehr als nur Anfrage-Antwort

Eine Webanfrage folgt einem einfachen Muster: Anfrage, Verarbeitung, Antwort. Ein Echtzeitgespräch ist grundlegend anders. Es ist ein kontinuierlicher, bidirektionaler Datenstrom, bei dem Latenz nicht nur eine Leistungsmetrik ist, sondern ein zentraler Teil des Nutzererlebnisses.Schon eine Verzögerung von wenigen hundert Millisekunden kann eine KI langsam und unnatürlich wirken lassen. Deshalb sind Metriken wie Time to First Token (TTFT) und Time to First Byte (TTFB) entscheidend:

  • TTFT (Time to First Token): Wie schnell beginnt die KI, über eine Antwort nachzudenken? Das ist entscheidend für die wahrgenommene Geschwindigkeit des Large Language Models (LLM).
  • TTFB (Time to First Byte): Wie schnell hörst Du den ersten Ton der KI-Antwort? Das misst die gesamte Pipeline – von Transkription über Verarbeitung bis zur Sprachsynthese.

Um diese Herausforderung zu meistern, setzt Safina auf eine hochintegrierte Hochgeschwindigkeits-Pipeline.

Diagramm des Gesprächsflusses bei einem KI-Telefonassistenten: Eine Nutzerin am Telefon spricht, das Audio wird per GPT Whisper (Speech-to-Text) transkribiert. Der Text geht an GPT (Text-to-Text) zur Verarbeitung. Die Antwort wird von Cartesia (Text-to-Speech) in Sprache umgewandelt und zurück an die Nutzerin gesendet. Alternative Speech-to-Text-Optionen sind Deepgram und Eleven Labs, alternative Textmodelle sind Claude, Deepseek und Gemini.

Safinas integrierte Architektur

Statt auf ein verteiltes System von Microservices zu setzen, das Netzwerklatenz verursachen kann, arbeiten Safinas Kernkomponenten – Speech-to-Text (STT), Large Language Model (LLM) und Text-to-Speech (TTS) – in einem einzigen, hochoptimierten Dienst.

So läuft ein Gespräch ab:

[🎙 Audioeingang (SIP-Trunk)]
            |
            v
[📝 Speech-to-Text (STT) – Transkription in Echtzeit]
            |
            v
[🧠 LLM-Verarbeitung + In-Kontext-Wissen]
            |
     +---------------+
     | Benötigt      |
     | externe       |
     | Daten?        |
     +-------+-------+
         Ja  |  Nein
         v   |   v
[📚 RAG-System]   [💬 Antwort generieren]
         \   |   /
          \  |  /
           \ | /
            \|/
[🔊 Text-to-Speech (TTS) – Sprachsynthese]
            |
            v
[📡 Audio-Streaming zurück an Anrufer]
  1. Audio-Aufnahme: Der Live-Audiostrom vom SIP-Trunk wird direkt in den Dienst eingespeist.
  2. STT-Verarbeitung: Das Audio wird sofort von unserer STT-Engine in Text umgewandelt.
  3. LLM-Verarbeitung & In-Kontext-Wissen: Der transkribierte Text geht ans Kern-LLM. Häufige und wichtige Infos (z. B. Geschäftszeiten, Standardbegrüßungen) werden direkt im Kontextfenster des LLM gehalten – für blitzschnellen Abruf.
  4. Datenabruf (RAG für große Datenmengen): Brauchst Du Infos, die nicht im unmittelbaren Kontext sind – etwa Bestelldetails oder Daten aus einer großen Wissensdatenbank – ruft das System unser Retrieval-Augmented Generation (RAG)-System auf. Das ist die Brücke zu externen Datenquellen. Die Kompromisse zwischen In-Kontext-Speicher und RAG schauen wir uns in Teil 2 an.
  5. TTS-Generierung: Sobald das LLM eine Antwort formuliert, wird sie direkt an die TTS-Engine im selben Dienst weitergeleitet.
  6. Audio-Streaming: Die TTS-Engine erzeugt das Audio und streamt es an Dich zurück – für ein flüssiges Gesprächserlebnis.

Warum das für Dein Unternehmen wichtig ist

Der integrierte Ansatz bietet Dir mehrere Vorteile:

  • Skalierbarkeit: Jede Komponente (STT, LLM, TTS, RAG) kann je nach Last unabhängig skaliert werden. Wird die Transkription zum Engpass, skalierst Du nur diesen Dienst – ohne die anderen zu beeinträchtigen.
  • Ausfallsicherheit: Fällt ein Microservice aus, legt er nicht das ganze System lahm. Die Architektur ermöglicht eine graceful degradation und Fehlerisolierung.
  • Erweiterbarkeit: Für dynamische Geschäftsabläufe entscheidend. Möchtest Du Safina in eine lokale MySQL-Datenbank integrieren? Oder in ein eigenes ERP-System? Du kannst neue Integrationen erstellen, die auf Datenabrufereignisse lauschen und sich über eine sichere API mit Deinen Datenquellen verbinden. Das Kernsystem von Safina muss dafür nicht neu entwickelt werden.

Nächster Teil: Das Gehirn

Wir haben das “Nervensystem” behandelt, das Safina ermöglicht, in Echtzeit zu reagieren. Aber wie sieht es mit dem “Gehirn” aus? Wie versteht Safina komplexe Anfragen und greift auf die spezifische Wissensdatenbank Deines Unternehmens zu?

Im nächsten Artikel geht es um Teil 2: Das Gehirn – Kontext vs. RAG für Unternehmenswissen. Wir diskutieren die Kompromisse zwischen Datenhaltung im Kontext für Geschwindigkeit und der Nutzung von RAG für den Zugriff auf umfangreiche Wissensdatenbanken.Bleib dran, um zu erfahren, wie Du Deine Unternehmensinfrastruktur mit einer wirklich intelligenten Stimme ausstattest.

9:41

Safina führte diese Woche 51 Telefonate

46

Vertrauensvoll

4

Verdächtig

1

Gefährlich

Letzte 7 Tage
Filter
EM
Emma Martin 67s 15:30

Möchte das Angebot für die neue Kampagne besprechen und hat Fragen zum Zeitplan.

LS
Laura Wagner 54s 14:45

Fragt nach dem Status der Bestellung und wann die Lieferung kommt.

TH
Tim Hoffmann 34s 13:10

Termin für Projektbesprechung nächste Woche vereinbaren.

Unbekannt 44s 11:30

Gewinnversprechen – wahrscheinlich Spam.

SK
Sophie Meyer 10s 09:15

Reklamation zum letzten Auftrag, bittet um Rückruf.

MM
Martin Neumann 95s 13. Dez

Möchte eine mögliche Zusammenarbeit besprechen.

AR
Anna Richter 85s 13. Dez

Ist Deine Kollegin und möchte über das Projekt sprechen.

JK
Jonas König 42s 12. Dez

Erkundigt sich nach verfügbaren Terminen nächste Woche.

LB
Lina Berg 68s 12. Dez

Hat Fragen zur Rechnung und bittet um Klärung.

Anrufe
Safina
Kontakte
Profil
9:41
Anruf von Emma Martin
12. Dez
11:30
67s

Möchte das Angebot für die neue Kampagne besprechen und hat Fragen zum Zeitplan.

Wichtigste Punkte

  • Rückruf an Emma Martin
  • Fragen zu Zeitplan & Konditionen klären
Zurückrufen
Kontakt bearbeiten

KI-Einblicke

Stimmung der Person Sehr gut

Der Anrufer war kooperativ und hat die benötigten Informationen bereitgestellt.

Dringlichkeit Niedrig

Der Anrufer kann auf eine Rückmeldung warten.

Audio & Transkript

0:16

Hallo, hier spricht Safina AI, die digitale Assistentin von Peter. Wie kann ich Ihnen helfen?

Hallo Safina, hier ist Emma Martin. Ich wollte über das Angebot und den Zeitplan sprechen.

Danke, Emma. Geht es bei Ihrer Entscheidung vor allem um das Standard- oder Pro-Paket für den Launch?

Genau. Wir brauchen das Pro-Paket und möchten nächsten Monat starten, wenn das Onboarding in der ersten Woche möglich ist.

Sag Ciao zu deiner altmodischen Mailbox.

Teste Safina kostenlos und beginne deine Anrufe intelligent zu verwalten.

Kostenlos testen