spot_img
Головна сторінка[:uk]Статті[:]Усе про нову модель штучного інтелекту Llama від Meta

[:uk]Усе про нову модель штучного інтелекту Llama від Meta[:]

Моделі штучного інтелекту з відкритим кодом багато в чому поступалися своїм аналогам з закритим кодом. Однак все змінилося після виходу нової моделі штучного інтелекту Llama від Meta. 

Meta Llama 3.1 405B, яку розгорнули кілька днів тому, швидко завоювала репутацію однієї з найпотужніших безкоштовних моделей, перевершивши продукти OpenAI і Anthropic. Продуктивність Llama 3.1 приблизно така ж як у GPT-4o або Sonnet, проте головна особливість цієї моделі ШІ – вона є моделлю з відкритим кодом. 

Цільове призначення Meta Llama 3.1 405B

Запуск моделі Llama 3.1 405B має на меті прискорити інновації та надати безпрецедентні можливості для прискорення розробки програмних забезпечень та досліджень. Meta вважає, що це останнє покоління моделей зробить революцію в застосуванні ШІ та парадигмах моделювання. 

Особливу увагу розробники приділяють функції генерації синтетичних даних, завдяки їй можна швидко навчати нові, менші моделі штучного інтелекту з відкритим кодом. 

Нова модель штучного інтелекту Llama від Meta

Потужність Llama 3.1 405B

Для оцінки продуктивності моделі було використано понад 150 еталонних наборів даних. Оцінка показує, що Llama 3.1 може конкурувати з провідними моделями такими, як GPT-4 та Claude 3.5 Sonnet в широкому спектрі завдань.

Llama 3.1 має вражаючі 405 мільярдів параметрів і перевершила інші мовні моделі в різних тестах. Модель демонструє відмінні результати в таких сферах, як загальні знання, керованість, математика, інструментарій та багатомовний переклад. Вона підтримує створення синтетичних даних та модельну дистиляцію, що дозволяє швидко начати нові моделі ШІ та надавати їм функцій Llama 3.1.

Архітектура моделі Llama 3.1 405B

Нова модель штучного інтелекту Llama від Meta навчалася на 15 трильйонах токенів, що стало серйозним викликом для розробників. Дослідники оптимізували повний навчальний стек, щоб уможливити тренувальні запуски такого масштабу. Також навчання перенесли на 16 тисяч графічних процесорів H100. 

Це перша модель Llama навчена в такому масштабі. Щоб підтримувати таку великомасштабну продуктивність розробники квантували модель з 16-бітної до 8-бітної. Це ефективно знизило програмні потреби для обчислювальної функції та дозволило працювати, використовуючи один серверний вузол.

Навчання

Загальна архітектура моделі є стандартною. Вона складається лише з декодера з невеликими адаптаціями, щоб максимізувати стабільність навчання. Воно складалося з двох етапів: попереднє навчання та пост-тренування. 

На фазі попереднього навчання розробники токенізували багатомовний текстовий корпус на окремі корпуси. Після чого навчали LLM на базі отриманих даних, змушуючи виконвувати текстові завдання, переходячи від одного токену до іншого. Так модель отримала велику кількість знань та розуміння структури мови. 

На фазі постнавчання, також відомого як тонке налаштування, розробники вирівнювали реакцію моделі на запити. Отримавши знання та розуміння мови, нова модель штучного інтелекту Llama від Meta не розуміла інструкції та наміри. Постнавчання проходило в кілька раундів, на кожному з яких проводилося контрольоване тонке налаштування даних. 

Архітектура моделі Llama 3.1

Створення чату

При розробці Llama 3.1 405B основна увага була зосереджена на підвищенні корисності, якості та продуктивності моделі при забезпеченні високого рівня безпеки. Основними викликами були включення більшої кількості функцій, розширення контекстного вікна моделі до 128 тисяч токенів та збільшення її загального розміру.

Для створення фінальної моделі чату було проведено серію раундів вирівнювання на основі попередньо навченої моделі. В кінці кожного раунду проводили не лише тонке налаштування, але й досліджували вибірку відхилень та пряму оптимізацію переваг.

Особливу увагу було приділено збалансуванню даних для створення високоякісної моделі, яка підтримуватиме будь-які сценарії. 

Порівняння продуктивності Llama 3.1

Перш ніж зробити модель доступною широкому загалу Meta провела тестування моделі на різних наборах даних та порівняла результати дослідження з продуктивністю інших великих мовних моделей (LLM). Практично в кожному тестовому наборі даних і завданнях Llama 3.1 лідирувала чи була на рівні з передовими моделями генеративного штучного інтелекту. 

Так, в тестуванні MMLU, що вимірює знання, набуті під час попереднього навчання, модель від  Meta, отримала оцінку 88, 6. Це поставило її на друге місце після GPT-4 Omni з показником 88,7. Моделі GPT-4 та Claude 3.5 Sonnet набрали 85,4 та 88,3 балів відповідно.

Поточний стан техніки на IFEval оцінив Llama 3.1 на 88,6, у той час як GPT-4 Omni, GPT-4 та Claude 3.5 Sonnet отримали 85,6, 84,3 та 88,0 відповідно. В тесті оцінки математичних здібностей (GSM8K) модель штучного інтелекту перевершила конкурентів, набравши 96,8 балів. Найближчою до неї виявилася модель Sonnet з оцінкою 96, 4.

Експертна оцінка

Окрім порівняльних тестів, компанія розробник використовувала процес людського оцінювання, щоб зрозуміти, якій моделі ШІ користувачі надаватимуть перевагу. Люди-анотатори, що тестували моделі, повинні були поставити одне і те саме питання. Отримавши відповіді, вони мали вирішити, яка з моделей впоралася з завданням краще та поставити оцінку від 1 до 7. В результаті були отримані такі дані:

  • Llama 3.1 405B працює приблизно на одному рівні з GPT-4. В завданнях з кодування вона перевершує модель GPT-4, але в багатомовних підказках їй поступається. 
  • Модель працює на рівні з Claude 3.5 Sonnet в мовних підказках англійською мовою, однак поступається в можливостях кодування. 
Llama 3.1 – продуктивність, функції, можливості

Функції Llama 3.1 405B 

Нова модель штучного інтелекту Llama від Meta працює на рівні з популярними запатентованими моделями. Вона пропонує своїм користувачам:

  • Підтримку кількох мов. Окрім англійської модель підтримує іспанську, португальську, італійську, німецьку, тайську, французьку та ганді.
  • Розширений контекст. Модель здатна розуміти набагато більші об’єми тексту та мислити в широкому масштабі, надаючи набагато конкретніші та достовірніші відповіді ніж раніше. Вона підтримує 128 000 токенів, а це на 1600 % більше ніж у попередній версії  Llama 3. 
  • Потужна генерація синтетичних даних. Llama 3.1 405B дозволяє користувачам швидко створювати синтетичні дані для навчання інших мовних моделей. 
  • Модельна дистиляція. Користувачі можуть використовувати нову модель штучного інтелекту Llama від Meta, щоб передавати її знання та можливості у менші моделі. Це прискорює процес навчання нових моделей, та зменшує витрати на їх створення. 
  • Використання зовнішніх інструментів. Модель здатна використовувати сторонні інструменти, щоб розширити можливості LLM. Це можуть бути інструменти пошуку, генерації зображень, виконання коду тощо.
  • Надійні заходи безпеки. Llama 3.1 405B швидко реагує на витік конфіденційної інформації, коли її обробка сторонніми програмами не була попередньо підтверджена користувачем. Це дозволяє клієнтам тримати безпеку даних під контролем. 

Чим цікава нова модель штучного інтелекту Llama від Meta звичайним користувачам

Llama 3.1 405B – модель штучного інтелекту з відкритим кодом, яка допомагає корпоративним клієнтам швидко налаштовувати бізнес-процеси, чи навіть створювати власні моделі штучного інтелекту на базі корпоративних даних компанії. Однак модель може стати цінним помічником для звичайних клієнтів. 

Вона швидко знаходить потрібну інформацію, може підсумовувати текстові документи великих обсягів, виконувати помірно складні математичні обчислення. Окрім цього Llama 3.1 може створювати зображення на основі текстових підказок і миттєво згенерувати цілу книгу. 

Ця модель реагує на запити користувачів швидше і розуміє їхні питання краще, завдяки цьому працювати з Llama 3.1 405B набагато легше.

Переваги моделі штучного інтелекту з відкритим кодом

Чим важливі моделі ШІ з відкритим кодом

На відміну від закритих моделей, внутрішня архітектура Llama доступна для завантаження. Завдяки цьому розробники отримують змогу налаштовувати модель ШІ під особисті потреби. В свою чергу це дає змогу широкій спільноті користувачів зрозуміти потенціал генеративного штучного інтелекту. 

А ще розробники можуть кастомізувати свої додатки та запускати їх у будь-якому середовищі без обміну даними з компанією Meta. У випадку з моделями з закритим кодом, нові додатки одразу опиняються на сервері компанії виробника ШІ. 

Хоча закриті моделі вважаються економічно ефективнішими, відкритий код гарантує, що більше користувачів матимуть доступ до розширених можливостей штучного інтелекту і влада не зосереджуватиметься в руках невеликої групи людей. Технологія генеративного штучного інтелекту буде розгорнута більш рівномірно, а отже стане безпечнішою. 

Моделі з відкритим кодом завжди поступалися в потужності своїм аналогам з закритим. Та схоже новій моделі штучного інтелекту Llama від Meta вдалося подолати цей розрив, випустивши Llama 3.1 405B.