spot_img

[:uk]NAVI обіграли G2 і вийшли в плей-оф PGL Cluj-Napoca 2026[:]

[:uk]NAVI впевнено пробилися до плей-оф PGL Cluj-Napoca 2026, обігравши G2 Esports з рахунком 2:0 у вирішальному матчі групового етапу.[:]
Головна сторінкаНовини[:uk]ШІ[:]Arc Prize Foundation представила новий тест для перевірки ШІ

[:uk]Arc Prize Foundation представила новий тест для перевірки ШІ[:]

Фонд Arc Prize Foundation, заснований Франсуа Шолле, представив новий тест ARC-AGI-2 на оцінку реальних інтелектуальних можливостей сучасних моделей ШІ. Як показала практика тест виявився занадто складним для більшості провідних мовних моделей. Їхні результати не перевищують 1,3%. Це свідчить про те, що навіть найсучасніші ШІ-системи далекі від справжнього загального штучного інтелекту (AGI).

Що відомо про ARC-AGI-2

Тест ARC-AGI-2 є логічним випробуванням, у якому моделям штучного інтелекту пропонуються головоломки. Їм потрібно аналізувати візуальні патерни (кольорові сітки) та передбачати правильну відповідь.

Головна особливість цього тесту – ШІ не може використовувати “грубу силу” (тобто величезні обчислювальні потужності для перебору варіантів). Замість цього моделі повинні демонструвати адаптивність і справжнє міркування.

Результати найкращих моделей на ARC-AGI-2 виглядають доволі скромно:

  • o1-pro від OpenAI – 1,3%;
  • R1 від DeepSeek – 1,2%;
  • GPT-4.5, Claude 3.7 Sonnet, Gemini 2.0 Flash 1%.

Для порівняння – люди проходять такий тест із середнім результатом 60%.

Попередній тест ARC-AGI довгий час був стандартом для вимірювання інтелекту ШІ, але він дозволяв “обманювати” систему завдяки великим обчислювальним ресурсам. Це підтвердив випадок із моделлю OpenAI o3, яка набрала 75,7% на ARC-AGI, але всього 4% на ARC-AGI-2.

Тест має на меті оцінити реальну здатність ШІ навчатися та міркувати, а не просто запам’ятовувати та обчислювати.

Разом із запуском нового тесту Arc Prize Foundation оголосив конкурс Arc Prize 2025. Його мета – створити ШІ, який досягне 85% точності в ARC-AGI-2 та виконуватиме завдання менше ніж за 0,42$.