Компанія Microsoft представила найбільшу на сьогоднішній день 1-бітну модель штучного інтелекту BitNet b1.58 2B4T. Новинка доступна за відкритою ліцензією MIT і здатна працювати навіть на звичайних процесорах, таких як Apple M2.
Особливості BitNet b1.58 2B4T
BitNet – це представник нового покоління компактних, “легких” нейромереж, створених для ефективної роботи на пристроях з обмеженими обчислювальними ресурсами. Її унікальність полягає в тому, що ваги моделі квантуються до трьох значень – 0, 1 та -1, що радикально знижує вимоги до памʼяті та обчислювальних потужностей.
BitNet b1.58 2B4T – модель ШІ з 2 мільярдами параметрів, натренованих на колосальному обсязі даних (4 трильйони токенів), що еквівалентно приблизно 33 мільйонам книг.
Незважаючи на скромну архітектурну будову, ця модель демонструє результати, які здивували навіть досвідчених розробників. У тестах GSM8K та PIQA, BitNet випередила Llama 3.2 1B від Meta, Gemma 3 1B від Google та Qwen 2.5 1.5B від Alibaba. Та найяскравіше досягнення – це висока швидкість обробки при мінімальному споживанні памʼяті. В окремих випадках BitNet працює вдвічі швидше, ніж інші моделі схожого масштабу.
Однак, щоб BitNet демонстрував заявлену продуктивність, необхідно використовувати спеціальну інфраструктуру bitnet.cpp, створену Microsoft. Щоправда ця технологія наразі несумісна з популярними графічними процесорами, які становлять основу сучасної ШІ-інфраструктури.
