Фонд Arc Prize Foundation, заснований Франсуа Шолле, представив новий тест ARC-AGI-2 на оцінку реальних інтелектуальних можливостей сучасних моделей ШІ. Як показала практика тест виявився занадто складним для більшості провідних мовних моделей. Їхні результати не перевищують 1,3%. Це свідчить про те, що навіть найсучасніші ШІ-системи далекі від справжнього загального штучного інтелекту (AGI).
Що відомо про ARC-AGI-2
Тест ARC-AGI-2 є логічним випробуванням, у якому моделям штучного інтелекту пропонуються головоломки. Їм потрібно аналізувати візуальні патерни (кольорові сітки) та передбачати правильну відповідь.
Головна особливість цього тесту – ШІ не може використовувати “грубу силу” (тобто величезні обчислювальні потужності для перебору варіантів). Замість цього моделі повинні демонструвати адаптивність і справжнє міркування.
Результати найкращих моделей на ARC-AGI-2 виглядають доволі скромно:
- o1-pro від OpenAI – 1,3%;
- R1 від DeepSeek – 1,2%;
- GPT-4.5, Claude 3.7 Sonnet, Gemini 2.0 Flash – 1%.
Для порівняння – люди проходять такий тест із середнім результатом 60%.
Попередній тест ARC-AGI довгий час був стандартом для вимірювання інтелекту ШІ, але він дозволяв “обманювати” систему завдяки великим обчислювальним ресурсам. Це підтвердив випадок із моделлю OpenAI o3, яка набрала 75,7% на ARC-AGI, але всього 4% на ARC-AGI-2.
Тест має на меті оцінити реальну здатність ШІ навчатися та міркувати, а не просто запам’ятовувати та обчислювати.
Разом із запуском нового тесту Arc Prize Foundation оголосив конкурс Arc Prize 2025. Його мета – створити ШІ, який досягне 85% точності в ARC-AGI-2 та виконуватиме завдання менше ніж за 0,42$.
