Alibaba prezentuje Qwen 3, rodzinę „hybrydowych” modeli rozumowania AI

Alibaba wprowadza Qwen 3 – nową rodzinę modeli AI konkurującą z OpenAI i Google Chińska firma technologiczna Alibaba w poniedziałek udostępniła Qwen 3, zestaw modeli sztucznej inteligencji, które – według firmy – dorównują, a w niektórych przypadkach przewyższają najlepsze rozwiązania od Google i OpenAI. Dostępność modeli Większość modeli jest już lub wkrótce będzie dostępna do […]

Alibaba wprowadza Qwen 3 – nową rodzinę modeli AI konkurującą z OpenAI i Google

Chińska firma technologiczna Alibaba w poniedziałek udostępniła Qwen 3, zestaw modeli sztucznej inteligencji, które – według firmy – dorównują, a w niektórych przypadkach przewyższają najlepsze rozwiązania od Google i OpenAI.

Dostępność modeli

Większość modeli jest już lub wkrótce będzie dostępna do pobrania na zasadach „otwartej” licencji na platformach takich jak Hugging Face oraz GitHub. Modele różnią się rozmiarem – od 0,6 miliarda do 235 miliardów parametrów. Parametry te odpowiadają w przybliżeniu zdolnościom modelu do rozwiązywania problemów – im więcej parametrów, tym lepsza wydajność.

Presja na amerykańskie firmy i ograniczenia

Rozwój chińskich modeli, takich jak Qwen, zwiększa presję na amerykańskie laboratoria, w tym OpenAI, aby dostarczały coraz lepsze technologie AI. Doprowadziło to również do wprowadzenia przez władze ograniczeń mających na celu utrudnienie chińskim firmom dostępu do procesorów niezbędnych do trenowania modeli.

Introducing Qwen3!
We release and open-weight Qwen3, our latest large language models, including 2 MoE models and 6 dense models, ranging from 0.6B to 235B. Our flagship model, Qwen3-235B-A22B, achieves competitive results in benchmark evaluations of coding, math, general… pic.twitter.com/JWZkJeHWhC
— Qwen (@Alibaba_Qwen) April 28, 2025

Hybrydowe podejście i architektura MoE

Według Alibaby, modele Qwen 3 są „hybrydowe” – mogą poświęcać czas na „rozumowanie” w przypadku złożonych problemów lub szybko odpowiadać na prostsze zapytania. Ta funkcja pozwala modelom na weryfikację faktów, podobnie jak w przypadku modeli OpenAI, takich jak o3, ale kosztem większego opóźnienia.

„Zintegrowaliśmy tryby myślenia i szybkiego reagowania, dając użytkownikom kontrolę nad budżetem obliczeniowym” – napisał zespół Qwen w wpisie na blogu. „To rozwiązanie pozwala łatwiej dostosować model do konkretnych zadań.”

Niektóre modele wykorzystują również architekturę „mixture of experts” (MoE), która może być bardziej wydajna obliczeniowo. Polega ona na dzieleniu zadań na podproblemy i delegowaniu ich do mniejszych, wyspecjalizowanych modeli.

Języki i dane treningowe

Modele Qwen 3 obsługują 119 języków i zostały wytrenowane na zbiorze danych zawierającym prawie 36 bilionów tokenów. Tokeny to podstawowe jednostki danych przetwarzane przez model – 1 milion tokenów odpowiada około 750 tys. słów. Wśród danych treningowych znalazły się podręczniki, pary pytań i odpowiedzi, fragmenty kodu, dane generowane przez AI i inne.

Porównanie z konkurencją

Alibaba twierdzi, że Qwen 3 znacząco przewyższa swojego poprzednika, Qwen 2. Żaden z nowych modeli nie jest wyraźnie lepszy od najnowszych rozwiązań, takich jak OpenAI o3 czy o4-mini, ale plasuje się w czołówce.

Na platformie Codeforces, służącej do konkursów programistycznych, największy model Qwen 3 – Qwen-3-235B-A22B – minimalnie wyprzedza OpenAI o3-mini oraz Gemini 2.5 Pro od Google. Lepiej radzi sobie również w testach matematycznych (AIME) i sprawdzających zdolność rozumowania (BFCL).

Jednak Qwen-3-235B-A22B nie jest jeszcze dostępny publicznie.

Publicznie dostępne modele

Największy publiczny model, Qwen3-32B, jest konkurencyjny wobec innych otwartych i zamkniętych rozwiązań, w tym modelu R1 chińskiego laboratorium DeepSeek. Przewyższa również model o1 OpenAI w testach takich jak LiveCodeBench.

Zastosowania i opinie

Alibaba podkreśla, że Qwen 3 wyróżnia się w korzystaniu z narzędzi, wykonywaniu instrukcji i zachowywaniu określonych formatów danych. Oprócz możliwości pobrania, modele są dostępne u dostawców chmurowych, takich jak Fireworks AI i Hyperbolic.

Tuhin Srivastava, współzałożyciel i CEO Baseten (platformy hostingowej dla AI), zauważył, że Qwen 3 wpisuje się w trend, w którym otwarte modele dorównują zamkniętym rozwiązaniom, takim jak te od OpenAI.

„USA zaostrzają ograniczenia w sprzedaży chipów do Chin, ale modele takie jak Qwen 3, które są nowoczesne i otwarte, z pewnością będą wykorzystywane lokalnie” – powiedział TechCrunch. „To pokazuje, że firmy zarówno budują własne rozwiązania, jak i korzystają z gotowych ofert od firm takich jak Anthropic czy OpenAI.”