Anthropic wydał Claude Opus 4.5 w dniu 24 listopada 2025. Identyfikator modelu: claude-opus-4-5-20251101. Cena: 5 dolarów za milion tokenów wejściowych, 25 dolarów za milion tokenów wyjściowych. Okno kontekstu: 200 000 tokenów.
Na pierwszy rzut oka, kolejna aktualizacja w wyścigu modeli AI. Ale Anthropic zrobił coś, czego większość laboratoriów unika: zamiast budować większy model, zbudował sprytniejszy.
Claude Opus 4.5: Dlaczego wydajność to prawdziwy przełom
Od dwóch lat branża AI pędzi w jednym kierunku. Większe modele, więcej parametrów, wyższe wyniki benchmarków. Anthropic z Opus 4.5 poszedł pod prąd.
Ten model nie został zaprojektowany jako największy na rynku. Został zaprojektowany tak, żeby dawać najlepsze wyniki w przeliczeniu na każdy wydany token. W praktyce: potrafi dorównać wydajnością Claude Sonnet 4.5 (dotychczasowemu standardowemu modelowi do większości zadań), zużywając przy tym 76% mniej tokenów. Ta sama jakość. Ułamek kosztów.
Dla polskiego rynku, gdzie firmy (szczególnie MŚP) liczą każdą złotówkę wydaną na technologię, to ma realne znaczenie. AI jest przydatna tylko wtedy, gdy da się ją wdrożyć w opłacalny sposób. Opus 4.5 przesuwa granicę opłacalności.
Parametr wysiłku: szybkość albo głębia, zależnie od potrzeby
Najciekawsza funkcja Opus 4.5 to parametr wysiłku (effort parameter). Pozwala on na każde zapytanie ustawić, jak intensywnie model ma pracować.
Średni wysiłek: Opus 4.5 osiąga taką samą wydajność jak Sonnet 4.5, zużywając 76% mniej tokenów. Taka sama jakość za ułamek ceny.
Wysoki wysiłek: Model przewyższa Sonnet 4.5 o 4,3 punkta w benchmarkach i wciąż zużywa 48% mniej tokenów.
Wyobraź sobie asystenta telefonicznego AI, który obsługuje połączenia w twojej firmie. Ktoś dzwoni z pytaniem o godziny otwarcia? Średni wysiłek, szybka odpowiedź, minimalny koszt. Klient opisuje skomplikowany problem techniczny, który wymaga dokładnego podsumowania? Wysoki wysiłek, model angażuje więcej zasobów.
Nie każde połączenie jest tak samo wymagające. Teraz model może się do tego dostosować.
Benchmarki programistyczne: dlaczego mają znaczenie poza IT
Opus 4.5 osiągnął najlepszy wynik na SWE-bench Verified. To benchmark, który testuje modele AI na prawdziwych problemach inżynierii oprogramowania z GitHuba. Model prowadzi w 7 z 8 języków programowania na SWE-bench Multilingual. Na Aider Polyglot (kolejnym teście programowania wielojęzycznego) poprawia wynik Sonnet 4.5 o 10,6%.
Dlaczego to ważne, jeśli nie jesteś programistą?
Bo te testy mierzą coś więcej niż pisanie kodu. Zadania SWE-bench wymagają od modelu przeczytania tysięcy linii istniejącego kodu, zrozumienia kontekstu, znalezienia dokładnego miejsca problemu i wygenerowania poprawnej poprawki. To umiejętności takie jak czytanie ze zrozumieniem, logiczne myślenie i precyzja.
Model, który potrafi przeanalizować 5000 linii kodu i znaleźć jedną wadliwą funkcję, potrafi też wysłuchać 10-minutowej rozmowy telefonicznej i wyciągnąć z niej trzy konkretne punkty, na których rozmówcy naprawdę zależy. Te zdolności przenoszą się między dziedzinami.
Co ważne, SWE-bench Multilingual obejmuje też języki popularne w Polsce (Python, JavaScript, TypeScript, Java). Dominacja Opus 4.5 w tych językach sugeruje, że model dobrze radzi sobie z różnorodnymi strukturami logicznymi, co przekłada się na lepsze rozumienie złożonych wypowiedzi w języku naturalnym.
Co to oznacza dla narzędzi biznesowych opartych na AI
Polski rynek AI rozwija się dynamicznie. Coraz więcej firm szuka sposobów na automatyzację obsługi telefonicznej bez rezygnacji z jakości kontaktu z klientem. Bardziej wydajne modele przyspieszają tę transformację.
Lepsze rozumienie rozmów. Asystent telefoniczny AI przetwarzający rozmowy musi wychwytywać intencje, rozpoznawać niuanse i odróżniać to, co dzwoniący mówi, od tego, czego faktycznie potrzebuje. Lepsze modele generują trafniejsze podsumowania i dokładniejsze listy zadań do wykonania.
Niższy koszt na interakcję. Jeśli twój agent AI obsługuje setki połączeń dziennie, koszty tokenów szybko rosną. Model, który dostarcza tę samą jakość przy 76% mniej tokenów, obniża koszty operacyjne bezpośrednio. Te oszczędności mogą przełożyć się na niższe ceny dla użytkowników końcowych.
Dłuższe rozmowy bez utraty wątku. Opus 4.5 korzysta z kompaktowania kontekstu (context compaction). Model potrafi prowadzić rozmowy trwające 5, 10 czy 15 minut bez zapominania o tym, co powiedziano na początku. Dla asystentów telefonicznych, gdzie rozmowy bywają długie, to realna poprawa jakości obsługi.
Lepsza ochrona. Anthropic określa Opus 4.5 jako swój najlepiej wyrównany model do tej pory, z wyższą odpornością na ataki prompt injection. Kiedy asystent AI pracuje z prawdziwymi danymi klientów przez telefon, bezpieczeństwo nie jest opcjonalne. W kontekście europejskich regulacji (RODO, AI Act), odporność modelu na manipulacje jest dodatkowym atutem przy wyborze dostawcy technologii.
Szerszy obraz: dokąd zmierza branża
Opus 4.5 wpisuje się w szerszy trend. Faza, w której modele AI sprzedawały się głównie rekordami benchmarkowymi, dobiega końca. Teraz liczy się coś innego: czy model da się wdrożyć w produkcji tak, żeby się finansowo opłacał?
Dla polskich firm, które rozważają wdrożenie agentów głosowych AI, to dobra wiadomość. Każda generacja modeli, która oferuje tę samą lub lepszą jakość przy mniejszym zużyciu zasobów, obniża barierę wejścia. Firma, która rok temu nie mogła sobie pozwolić na AI w obsłudze telefonicznej, teraz może to rozważyć.
Wydajność jako przewaga konkurencyjna
Branża AI dojrzewa. Wyścig o surową moc obliczeniową nie zatrzymał się, ale firmy wdrażające AI w codzienne procesy potrzebują czegoś więcej niż najwyższych wyników benchmarkowych. Potrzebują modeli, które są inteligentne i opłacalne jednocześnie.
Opus 4.5 wyznacza ten kierunek. Dla agentów głosowych AI i asystentów telefonicznych każda nowa generacja modeli językowych oznacza bardziej naturalne rozmowy, celniejsze podsumowania i niższe koszty operacyjne. To mierzalny postęp, nie tylko obietnica z komunikatu prasowego.
Źródła
- Ogłoszenie Claude Opus 4.5 - Anthropic