Китайський гігант Alibaba представив сімейство гібридних моделей Qwen3. Вони поєднують швидкі відповіді на прості запити з глибоким міркуванням для складних задач. Такий підхід дозволяє користувачам гнучко керувати витратами ресурсів на інтелектуальну обробку.
Гібридні моделі Qwen3
Моделі Qwen3 мають різні розміри – від 0,6 до вражаючих 235 мільярдів параметрів. Найпотужніша модель, Qwen-3-235B-A22B, вже встигла перевершити o3-mini від OpenAI і Gemini 2.5 Pro від Google у складних тестах на міркування й математичні обчислення. Щоправда, ця модель поки не стала загальнодоступною.
Однак публічна версія Qwen3-32B теж демонструє конкурентні результати, особливо у тестах на кодування. Більшість моделей доступні на Hugging Face і GitHub за відкритою ліцензією, що лише підсилює інтерес спільноти до них.
Alibaba також впровадила архітектуру змішаних експертів (MoE), яка делегує окремі завдання спеціалізованим модулям, що підвищує ефективність. Моделі підтримують 119 мов і були навчені на наборі з 36 трильйонів токенів, включаючи тексти, код, питання-відповіді та інші типи даних.
Важливо, що запуск Qwen3 відбувається на тлі посилення обмежень США щодо експорту передових чіпів до Китаю. Однак аналітики вважають, що завдяки відкритій природі моделі знайдуть широке використання всередині країни, особливо в умовах зростаючої конкуренції та потреби в локальних ШІ-рішеннях.
