Нова система OpenAI під назвою o3 20 грудня показала результат у 85% у тесті ARC-AGI, значно перевершивши попередній максимум ШІ (55%) і відповідаючи середньостатистичним показникам людини. Ба більше, o3 вдалося досягти високих результатів навіть у складному тесті з математики.
Про це повідомляє The Conversation.
Аспірант з Австралійського національного університету Майкл Тімоті Беннетт та дослідник зі Стенфордського університету Елайджа Пер’є пояснюють, чому цей прорив є важливим для розвитку технологій і суспільства.
Що таке ARC-AGI і як він працює
Тест ARC-AGI перевіряє здатність ШІ адаптуватися до нових ситуацій, оцінюючи “ефективність вибірки”. Це означає, наскільки швидко система може засвоїти нову інформацію з обмеженої кількості прикладів.
Традиційні моделі, такі як ChatGPT (GPT-4), навчаються на величезних масивах текстових даних, що дозволяє їм ефективно виконувати знайомі завдання. Однак вони мають обмеження у вирішенні незвичайних задач через брак даних для навчання в таких ситуаціях. Поки ШІ не навчиться швидко адаптуватися до нових умов, його використання залишатиметься обмеженим повторюваними завданнями або тими, де можливі помилки.
ARC-AGI також тестує здатність узагальнювати — ключову рису інтелекту. Задачі тесту базуються на аналізі сіток, де потрібно виявити шаблон, який перетворює одну сітку в іншу. Маючи три приклади, ШІ має вивести правило і застосувати його до четвертого прикладу.

Чим o3 вирізняється
Модель o3 демонструє вражаючу здатність адаптуватися. Вона може аналізувати “ланцюжки думок”, які представляють собою послідовні кроки для вирішення задачі, і вибирає найкращий підхід за допомогою певної евристики.
Французький дослідник Франсуа Шолле, творець тесту ARC-AGI, припускає, що саме ця стратегія допомогла o3 досягти такого успіху. Однак точні деталі залишаються невідомими, оскільки компанія OpenAI поки що обмежує інформацію про модель.
Що це означає для майбутнього
Результати o3 ставлять важливі питання про те, наскільки близько OpenAI наблизилася до створення AGI (загального штучного інтелекту). Якщо гіпотеза Шолле правильна, прогрес може бути менш значущим, ніж здається на перший погляд. Проте навіть у цьому випадку o3 є вражаючим досягненням, яке демонструє можливість ШІ працювати з новими даними ефективніше, ніж будь-коли раніше.
Дослідники наголошують, що справжня оцінка можливостей o3 потребуватиме масштабних тестувань, які визначать частоту успіхів і невдач моделі, її адаптивність і реальні межі використання.
Якщо o3 дійсно настільки адаптивний, як людина, це може відкрити нову еру в розвитку технологій, дозволяючи ШІ самонавчатися і постійно вдосконалюватися. Але навіть якщо ні, досягнення o3 є важливим кроком вперед, який, без сумніву, вплине на подальший розвиток галузі.
