У вівторок компанія OpenAI представила дві нові мовні моделі з відкритою вагою вперше з моменту виходу GPT-2 у 2019 році.
Ці текстові моделі називаються gpt-oss-120b і gpt-oss-20b, і вони призначені для того, щоб стати доступними за нижчою ціною, що дозволяє розробникам, дослідникам і компаніям легко їх використовувати і налаштовувати.
Що таке моделі з відкритою вагою
Модель штучного інтелекту вважається відкритої ваги, якщо її параметри, тобто елементи, що покращують результати і прогнози під час навчання, доступні публічно. Моделі з відкритою вагою забезпечують прозорість та контроль, але не є відкритим програмним забезпеченням, яке передбачає доступ до повного вихідного коду.
Конкуренція на ринку
Декілька інших технологічних компаній, включаючи Meta, Microsoft, яка підтримує Mistral AI, а також китайський стартап DeepSeek, також нещодавно випустили моделі з відкритою вагою.
“Цікаво спостерігати за розвитком екосистеми, і ми раді внести свій вклад і дійсно просунути межі, а потім подивитися, як все це розвиватиметься”, — зазначив президент OpenAI Грег Брокман під час брифінгу.
Співпраця з технологічними гігантами
Компанія працювала разом з Nvidia, Advanced Micro Devices, Cerebras та Groq, щоб забезпечити коректну роботу моделей на різних чіпах. Генеральний директор Nvidia Дженсен Хуанг заявив:
“OpenAI показала світу, що можна створити на базі технологій Nvidia — а тепер вони просувають інновації в сфері програмного забезпечення з відкритим кодом”.
Безпека та тестування
Випуск моделей з відкритою вагою від OpenAI викликав великий інтерес, оскільки компанія неодноразово затягувала їхній запуск. У липневій заяві генеральний директор OpenAI Сам Альтман повідомив, що компанії потрібно більше часу для проведення “додаткових тестів безпеки та перевірки ризикових аспектів”.
OpenAI заявила, що провела комплексне навчання і тестування безпеки своїх моделей з відкритою вагою. Під час попереднього навчання було відфільтровано шкідливі дані, а також були імітовані спроби зловмисників налаштувати моделі для недобрих цілей.
Доступність моделей
OpenAI повідомила, що люди можуть завантажити ваги gpt-oss-120b і gpt-oss-20b на платформах, таких як Hugging Face та GitHub, під ліцензією Apache 2.0. Моделі будуть доступні для запуску на ПК за допомогою програм, таких як LM Studio і Ollama. Хмарні провайдери, такі як Amazon, Baseten та Microsoft, також надають доступ до цих моделей.
Обидві моделі здатні виконувати розширене мислення, використовувати інструменти та обробляти ланцюги розумових процесів, і вони розроблені для використання в будь-яких умовах — від споживчого апаратного забезпечення до хмари та мобільних додатків.
Користувачі можуть запускати gpt-oss-20b на ноутбуці, використовуючи його як особистого помічника для пошуку файлів та написання текстів. “Ми раді представити цю модель, результат мільярдів доларів досліджень, світові, щоб якомога більше людей могли отримати доступ до штучного інтелекту”, — зазначив Альтман у своїй заяві.
