Wgląd w Safina AI, Część 1: Architektura bazowa dla głosowej AI w czasie rzeczywistym

Odkryj, jak Safina AI umożliwia głosową AI w czasie rzeczywistym z niskim opóźnieniem – od STT przez LLM po TTS, perfekcyjnie zintegrowaną dla Twojej firmy.

Wgląd w Safina AI, Część 1: Architektura bazowa dla głosowej AI w czasie rzeczywistym Produkt
Karsten Kreh Karsten Kreh

Witamy w serii „Wgląd w Safina AI”! Tutaj otrzymasz ekskluzywne spojrzenie za kulisy technologii napędzającej naszego asystenta telefonicznego AI. Seria jest skierowana do specjalistów technicznych, architektów systemów i wszystkich, którzy chcą wiedzieć, jak powstają solidne, przeznaczone dla firm rozwiązania AI do obsługi głosu. W dzisiejszym świecie biznesu telefonia to już nie tylko łączenie połączeń. Chodzi o tworzenie inteligentnych, responsywnych i zautomatyzowanych doświadczeń. AI, która odbiera połączenia, rezerwuje terminy i odpowiada na złożone pytania, potrzebuje architektury nastawionej na szybkość, niezawodność i głęboką integrację. W tej serii przyjrzymy się kluczowym komponentom „mózgu” i „układu nerwowego” Safiny.

Seria „Wgląd w Safina AI”

Wyzwanie: Rozmowy w czasie rzeczywistym to więcej niż zapytanie-odpowiedź

Zapytanie webowe realizuje prosty schemat: zapytanie, przetwarzanie, odpowiedź. Rozmowa w czasie rzeczywistym jest fundamentalnie inna. To ciągły, dwukierunkowy strumień danych, w którym opóźnienie nie jest jedynie metryką wydajności, lecz centralną częścią doświadczenia użytkownika. Już opóźnienie o kilkaset milisekund może sprawić, że AI wydaje się powolna i nienaturalna. Dlatego metryki takie jak Time to First Token (TTFT) i Time to First Byte (TTFB) są kluczowe:

  • TTFT (Time to First Token): Jak szybko AI zaczyna myśleć nad odpowiedzią? To kluczowe dla postrzeganej szybkości Large Language Model (LLM).
  • TTFB (Time to First Byte): Jak szybko słyszysz pierwszy dźwięk odpowiedzi AI? Mierzy to cały pipeline – od transkrypcji, przez przetwarzanie, po syntezę mowy.

Aby sprostać temu wyzwaniu, Safina wykorzystuje wysoko zintegrowany pipeline o dużej szybkości.

Diagram przepływu rozmowy z asystentem telefonicznym AI: Użytkowniczka rozmawia przez telefon, audio jest transkrybowane przez GPT Whisper (Speech-to-Text). Tekst trafia do GPT (Text-to-Text) do przetworzenia. Odpowiedź jest zamieniana przez Cartesia (Text-to-Speech) na mowę i przesyłana z powrotem do użytkowniczki. Alternatywne opcje Speech-to-Text to Deepgram i Eleven Labs, alternatywne modele tekstowe to Claude, Deepseek i Gemini.

Zintegrowana architektura Safiny

Zamiast stawiać na rozproszony system mikroserwisów, który może powodować opóźnienia sieciowe, kluczowe komponenty Safiny – Speech-to-Text (STT), Large Language Model (LLM) i Text-to-Speech (TTS) – działają w jednej, wysoko zoptymalizowanej usłudze.

Tak przebiega rozmowa:

[🎙 Wejście audio (SIP-Trunk)]
            |
            v
[📝 Speech-to-Text (STT) – Transkrypcja w czasie rzeczywistym]
            |
            v
[🧠 Przetwarzanie LLM + Wiedza w kontekście]
            |
     +---------------+
     | Potrzebuje    |
     | danych        |
     | zewnętrznych? |
     +-------+-------+
         Tak |  Nie
         v   |   v
[📚 System RAG]   [💬 Generowanie odpowiedzi]
         \   |   /
          \  |  /
           \ | /
            \|/
[🔊 Text-to-Speech (TTS) – Synteza mowy]
            |
            v
[📡 Streaming audio z powrotem do dzwoniącego]
  1. Przechwytywanie audio: Strumień audio na żywo z SIP-Trunk jest bezpośrednio podawany do usługi.
  2. Przetwarzanie STT: Audio jest natychmiast konwertowane na tekst przez nasz silnik STT.
  3. Przetwarzanie LLM i wiedza w kontekście: Transkrybowany tekst trafia do głównego LLM. Częste i ważne informacje (np. godziny otwarcia, standardowe powitania) są trzymane bezpośrednio w oknie kontekstowym LLM – dla błyskawicznego dostępu.
  4. Pobieranie danych (RAG dla dużych zbiorów): Gdy potrzebujesz informacji, których nie ma w bezpośrednim kontekście – na przykład szczegółów zamówienia lub danych z dużej bazy wiedzy – system wywołuje nasz system Retrieval-Augmented Generation (RAG). To most do zewnętrznych źródeł danych. Kompromisy między pamięcią kontekstową a RAG omówimy w Części 2.
  5. Generowanie TTS: Gdy LLM sformułuje odpowiedź, jest ona bezpośrednio przekazywana do silnika TTS w tej samej usłudze.
  6. Streaming audio: Silnik TTS generuje audio i strumieniuje je z powrotem do Ciebie – zapewniając płynne doświadczenie rozmowy.

Dlaczego to ważne dla Twojej firmy

Zintegrowane podejście oferuje Ci kilka korzyści:

  • Skalowalność: Każdy komponent (STT, LLM, TTS, RAG) może być niezależnie skalowany w zależności od obciążenia. Gdy transkrypcja staje się wąskim gardłem, sklalujesz tylko tę usługę – bez wpływu na pozostałe.
  • Odporność na awarie: Gdy jeden mikroserwis ulegnie awarii, nie wyłącza całego systemu. Architektura umożliwia graceful degradation i izolację błędów.
  • Rozszerzalność: Kluczowe dla dynamicznych procesów biznesowych. Chcesz zintegrować Safinę z lokalną bazą danych MySQL? Albo z własnym systemem ERP? Możesz tworzyć nowe integracje, które nasłuchują zdarzeń pobierania danych i łączą się ze źródłami danych przez bezpieczne API. Bazowy system Safiny nie wymaga do tego przebudowy.

Następna część: Mózg

Omówiliśmy „układ nerwowy”, który umożliwia Safinie reagowanie w czasie rzeczywistym. Ale jak wygląda „mózg”? Jak Safina rozumie złożone zapytania i uzyskuje dostęp do specyficznej bazy wiedzy Twojej firmy?

W następnym artykule omawiamy Część 2: Mózg – Kontekst vs. RAG dla wiedzy firmowej. Dyskutujemy o kompromisach między przechowywaniem danych w kontekście dla szybkości a wykorzystaniem RAG dla dostępu do obszernych baz wiedzy. Śledź nas dalej, aby dowiedzieć się, jak wyposażyć swoją infrastrukturę firmową w prawdziwie inteligentny głos.

9:41

Safina obsłużyła w tym tygodniu 51 połączeń

46

Zaufane

4

Podejrzane

1

Niebezpieczne

Ostatnie 7 dni
Filter
EM
Emma Martin 67s 15:30

Chce omówić ofertę na nową kampanię i ma pytania dotyczące harmonogramu.

KN
Katarzyna Nowak 54s 14:45

Pyta o status zamówienia i termin dostawy.

TW
Tomasz Wiśniewski 34s 13:10

Umówienie spotkania w sprawie projektu na przyszły tydzień.

Nieznany 44s 11:30

Obietnica wygranej — prawdopodobnie spam.

MW
Magdalena Wójcik 10s 09:15

Reklamacja ostatniego zamówienia, prosi o oddzwonienie.

PZ
Piotr Zieliński 95s 13 gru

Chce omówić potencjalną współpracę.

AR
Anna Rutkowska 85s 13 gru

Jest Twoją koleżanką i chce porozmawiać o projekcie.

JK
Jakub Krawczyk 42s 12 gru

Pyta o dostępne terminy na przyszły tydzień.

LB
Lena Bąk 68s 12 gru

Ma pytania dotyczące faktury i prosi o wyjaśnienie.

Połączenia
Safina
Kontakty
Profil
9:41
Połączenie od Emmy Martin
12 gru
11:30
67s

Chce omówić ofertę na nową kampanię i ma pytania dotyczące harmonogramu.

Kluczowe punkty

  • Oddzwonić do Emmy Martin
  • Wyjaśnić pytania o harmonogram i warunki cenowe
Oddzwoń
Edytuj kontakt

Wgląd AI

Nastrój rozmówcy Bardzo dobry

Rozmówca był współpracujący i przekazał potrzebne informacje.

Pilność Niski

Rozmówca może poczekać na odpowiedź.

Audio i transkrypcja

0:16

Dzień dobry, tu Safina AI, cyfrowy asystent Piotra. W czym mogę pomóc?

Dzień dobry Safina, tu Emma Martin. Chciałam porozmawiać o ofercie i harmonogramie.

Dziękuję, Emmo. Czy przy wdrożeniu rozważają Państwo głównie pakiet Standard czy Pro?

Dokładnie. Potrzebujemy pakietu Pro i chcielibyśmy wystartować w przyszłym miesiącu, jeśli onboarding będzie możliwy w pierwszym tygodniu.

Pożegnaj się ze staromodną pocztą głosową.

Wypróbuj Safina za darmo i zacznij inteligentnie zarządzać swoimi połączeniami.

Wypróbuj za darmo