Polski jest jednym z trudniejszych jezykow dla systemow glosowej AI. Siedem przypadkow gramatycznych, bogata fleksja, specyficzna intonacja. Wiekszosc modeli glosowych traktuje polski jako jezyk drugiej kategorii, dodany po angielskim i niemieckim, z wyraznym spadkiem jakosci. Dlatego gdy Google oglasza model obslugujacy 90+ jezykow, pytanie z polskiej perspektywy nie brzmi “ile jezykow?”, ale “jak dobrze radzi sobie z polskim?”
26 marca 2026 roku Google zaprezentowalo Gemini 3.1 Flash Live. To model audio-na-audio zaprojektowany do dialogu w czasie rzeczywistym. Nie zamienia mowy na tekst, zeby ja przetworzyc. Pracuje bezposrednio z audio i generuje odpowiedzi glosowe. Obsluguje ponad 90 jezykow, co jest najszerszym pokryciem jezykowym wsrod dostepnych modeli glosowych. Dla kazdego, kto sledzi rynek agentow glosowych AI, to wazne wydarzenie.
Czym jest Flash Live i dlaczego “czas rzeczywisty” ma znaczenie
Flash Live nalezy do rodziny modeli Gemini od Google. Ale w przeciwienstwie do wczesniejszych modeli tekstowych, ten jest zoptymalizowany pod dialog mowiony. Google nazywa go swoim “modelem audio o najwyzszej jakosci” i zintegrowalo go zarowno z produktami konsumenckimi (Gemini Live, Search Live), jak i narzediami dla deweloperow (Gemini Live API w Google AI Studio).
Model jest dostepny w ponad 200 krajach przez aplikacje Google.
Architektura jest kluczowa. Tradycyjne systemy glosowej AI dzialaja jak lancuch: rozpoznawanie mowy zamienia audio na tekst, model jezykowy generuje odpowiedz tekstowa, silnik TTS produkuje audio wyjsciowe. Kazdy krok dodaje opoznienie. Kazda konwersja traci informacje. Intonacja rozmowcy, tempo mowy, stan emocjonalny, to wszystko ginie po drodze.
Flash Live pracuje bezposrednio z audio. Mowa na wejsciu, mowa na wyjsciu. To redukuje opoznienie i zachowuje niuanse akustyczne. Podobny kierunek obralo OpenAI ze swoja API Realtime. Cala branza zmierza w strone modeli natywnie audio, a Google wlasnie postawilo na to duzy zaklad.
90+ jezykow: co to oznacza w praktyce
Dla kontekstu: OpenAI obsluguje okolo 50 jezykow w trybie glosowym. Safina oferuje 50+ jezykow dla rozmow telefonicznych. ElevenLabs pokrywa okolo 30 jezykow w conversational AI. 90+ jezykow Flash Live to najwiekszy zestaw jezykowy, z jakim startuje pojedynczy model glosowy.
Dla polskich firm, ktore obsluguja klientow za granica lub przyjmuja polaczenia od obcojezycznych klientow w Polsce, wiecej jezykow w jednym modelu oznacza prostsza infrastrukture. Zamiast kierowac polaczenia do roznych systemow w zaleznosci od jezyka rozmowcy, jeden model obsluguje detekcje i odpowiedz. Flash Live automatycznie rozpoznaje jezyk i moze przejsc na inny w trakcie rozmowy.
Ale jest roznica miedzy pokryciem a jakoscia. Model, ktory obsluguje 90 jezykow na poziomie 80% dokladnosci, to cos innego niz model obslugujacy 50 jezykow na 95%. Dla ogolnej konwersacji, szerokie pokrycie wystarczy. Dla rozmow biznesowych, gdzie asystent musi prawidlowo zapisac nazwisko, adres czy termin spotkania, liczy sie precyzja.
Google nie opublikowalo szczegolowych benchmarkow per jezyk dla Flash Live. 90+ jezykow odnosi sie do trybu konsumenckiego Gemini Live, gdzie bledy w rozmowie sa mniej dotkliwe niz w polaczeniu biznesowym. Dla produktow takich jak Safina, ktore obsluguja realne polaczenia firmowe, dokladnosc w danych konkretnych pozostaje najwazniejsza.
Z polskiego punktu widzenia jest dodatkowe pytanie: czy model poprawnie radzi sobie z polska deklinacja, odmiana przez przypadki i specyficzna fonetyka? To wyzwanie, z ktorym zmaga sie wiekszosc modeli glosowych, nawet tych obslugujacych polski od premiery.
Rozmowy multimodalne: glos plus ekran
Flash Live moze przetwarzac dane wizualne podczas rozmowy. Na smartfonie lub laptopie model widzi ekran lub obraz z kamery, jednoczesnie prowadzac rozmowe.
Zastosowania sa oczywiste. Wsparcie techniczne, gdzie uzytkownik udostepnia ekran. Konsultacje nad wspolnie ogladanym dokumentem. Diagnostyka sprzetu przez kamere. Dla zdalnej pomocy technicznej to realne ulatwienie.
Dla rozmow telefonicznych to nie zmienia niczego. Polaczenia telefoniczne to czyste audio. Nikt nie udostepnia ekranu, dzwoniac pod numer firmowy. Funkcja multimodalna pokazuje, dokad zmierza technologia (glos plus obraz bedzie standardem dla interakcji z AI), ale nie wplywa na to, czego potrzebuje asystent telefoniczny.
Co przenosi sie na telefonie, to rozumienie akustyczne. Flash Live wykrywa ton, emocje i akcentowanie w glosie rozmowcy. Wiedza, czy dzwoniacy brzmi sfrustrowanie czy spokojnie, wplywa na to, jak dobry asystent powinien reagowac. Cartesia Sonic 3 podchodzi do tego problemu od strony wyjscia (generowanie mowy z emocjami). Flash Live podchodzi od strony wejscia (rozumienie emocji w mowie).
Function calling: od rozmowy do dzialania
Flash Live uzyskalo 90,8% w ComplexFuncBench Audio. Ten benchmark mierzy, czy model glosowy potrafi poprawnie wywolywac funkcje na podstawie instrukcji mowionych. Na marzec 2026 to najlepszy wynik w branzy.
Function calling to roznica miedzy chatbotem a agentem. Zamiast tylko generowac odpowiedzi glosowe, model moze dzialac: sprawdzic kalendarz, wyszukac zamowienie, zarezerwowac termin, przekierowac polaczenie. Rozmowca mowi “przenies moja wizyte z czwartku na piatek po poludniu” i model nie tylko potwierdza, ze zrozumial. Wywoluje API kalendarza i dokonuje zmiany.
Dla asystentow telefonicznych AI to najwazniejsza funkcja. Ludzie nie dzwonia, zeby pogadac. Dzwonia, zeby cos zostalo zalatwione. Model, ktory przeksztalca mowione instrukcje w konkretne dzialania, jest dokladnie tym, czego potrzebuja agenci glosowi.
Google udostepnia dostepo przez Gemini Live API w Google AI Studio. Deweloperzy definiuja dostepne funkcje, a model zajmuje sie mapowaniem mowy naturalnej na wywolania strukturalne.
Co to oznacza dla asystentow telefonicznych AI
Flash Live przesuwa trzy granice w telefoni AI.
Standard jezykowy wlasnie wzrosl. 90 jezykow zmusza kazdego innego dostawce do reakcji. Dla firm, ktore dzialaja na wielu rynkach, roznica miedzy 30 a 90 jezykami to roznica miedzy “pokrywamy glowne rynki” a “mozemy obslugiwac wszedzie.” Dedykowane produkty telefoniczne musza dalej rozszerzac obsluge jezykowa, zeby pozostac konkurencyjne.
Modele natywnie audio staja sie standardem. Tradycyjny lancuch STT, LLM i TTS jest zastepowany przez modele pracujace bezposrednio z audio. Flash Live, API Realtime OpenAI i inne ida w tym kierunku. Architektura Safiny juz priorytetyzuje niska latencje, ale technologia bazowa sie zmienia.
AI ogolnego przeznaczenia kontra AI telefoniczna to wciaz glowny podzial. Flash Live jest zaprojektowane dla szerokiej AI konwersacyjnej: udostepnianie ekranu, integracja z kamera, chat konsumencki. Asystent telefoniczny potrzebuje czegos innego: niezawodnej obslugi polaczen, precyzyjnego zbierania informacji, integracji z CRM, spersonalizowanego powitania, rezerwacji terminow i dziesiatek procesow biznesowych. Google buduje silnik. Produkty takie jak Safina buduja caly pojazd wokol niego.
Flash Live podnosi poziom wydajnosci dla calej branzy. Pytanie dla firm pozostaje takie samo: czy potrzebujesz ogolnej AI glosowej, czy asystenta telefonicznego zbudowanego pod twoje polaczenia?