Нещодавно стартап MiniMax, підтримуваний Alibaba та Tencent, представив три нові моделі ШІ: MiniMax-Text-01, MiniMax-VL-01 і T2A-01-HD. Ці моделі демонструють широкий спектр можливостей: від роботи з текстом і зображеннями до генерації аудіо.
Нові моделі ШІ від MiniMax
MiniMax-Text-01 – це текстова модель із 456 мільярдами параметрів, яка, за заявою розробників, перевершує Google Gemini 2.0 Flash у тестах MMLU та SimpleQA. Ці тести оцінюють здатність моделі розв’язувати математичні задачі та відповідати на запитання, засновані на фактах. Унікальність моделі в тому, що вона має надзвичайно велике контекстне вікно – 4 мільйони токенів, що дозволяє аналізувати до 3 мільйонів слів за раз. Це в 31 раз більше, ніж контекстні можливості GPT-4o від OpenAI.
Модель MiniMax-VL-01 здатна обробляти текст і зображення, змагаючись із Claude 3.5 Sonnet від Anthropic у мультимодальних завданнях, таких як ChartQA, які передбачають аналіз графіків і діаграм. Хоча MiniMax-VL-01 поступається Gemini 2.0 Flash у кількох тестах, вона демонструє високу конкурентоспроможність.
Аудіомодель T2A-01-HD оптимізована для мовлення. Вона може генерувати синтетичний голос 17-ма мовами (включаючи англійську та китайську) і клонувати голос із 10 секунд аудіозапису. Хоча MiniMax не опублікував результати порівнянь із конкурентами, якість аудіо звучить на рівні моделей від Meta.
MiniMax пропонує завантаження моделей MiniMax-Text-01 і MiniMax-VL-01 на GitHub та Hugging Face. Однак вони не є повністю відкритими через відсутність компонентів, необхідних для їх відтворення, та обмежувальні ліцензії.
